Mythes en waarheden deel 5: maar internationaal doen we het toch goed?

Mythe 5	Waarheid
Ons onderwijs zit internationaal mooi bij de top	De landenranglijsten van PISA en TIMSS zijn misleidend en daarom nutteloos. Een hoge positie erop betekent weinig tot niets

English version of myth 5.
Een Engelse vertaling van Mythe 5 is in de bijlagen te vinden onder de titel: But internationally we’re OK.
Referenties
Alle PISA-rapporten zijn te downloaden van PISA oecd org
De TIMSS-rapporten vindt u op de NCES-site.
Adams, R. J. (2003). Response to ‘Cautions on OECD’s recent educational survey (PISA)’.
Oxford Review of Education, vol. 29, no. 3, 2003.
Bender, P. (2003) Die etwas andere Sicht auf die internationalen Vergleichsuntersuchungen TIMSS, PISA und IGLU.
Bender, P. Die etwas andere Sicht auf den mathematischen Teil der internationalen Vergleichsuntersuchungen PISA sowie TIMSS und IGLU. DMV-Mitteilungen 12-2/2004.
Bender, P. (2005). Neue Anmerkungen zu alten und neuen PISA-Ergebnissen und Interpretationen.
Bender; meer van Bender vindt u [hier].
Baumert, J. e.a. (1999). Konzeption und Aussagekraft der TIMSS-Leistungstests. Antwoord op Hagemeister (1999).
Bracey, G. W. (2000). The TIMSS “Final year” study and report: A critique. Educational Reseacher, Vol. 29, May 2000, p. 4 – 10.
Clarke, D. (2001). Developments in international comparative research in mathematics education: Problematising cultural explanations.
Collani, E. von (2001). OECD PISA – An example of stochastic illiteracy? Economic Quality Control, vol. 16, no. 2, 227 – 253.
Downes, S. (2005). Understanding PISA. Turkish Online Journal of Distance Education. 2005, vol. 6, no. 2, art. l.
Goldstein, H. (2004). International comparisons of student attainment: some issues arising from the PISA study.
Haahr, J. H. e.a. (2005). Explaining student performance. Evidence from the international PISA, TIMSS and PIRLS surveys.
Hagemeister, V. (1999). Was wurde bei TIMSS erhoben? Eine Analyse der empirischen Basis von TIMSS.
Hagemeister, V.; Kritische Anmerkungen zum Umgang mit den Ergebnissen von PISA (2006).
Jahnke, T. & Meyerhöfer, W., Hrsg. (2006). Pisa & CO Franzbecker Verlag, Berlin.
Lange, J. de. Mathematical literacy for living from OECD-PISA perspective. (2006).
Le Tendre, G. K. et al. (2001). Teacher’s work: Institutional isomorphism and cultural variation in the U.S., Germany, and Japan. Educational Researcher, vol. 30, no. 6, p.3 – 15.
Naylor, F. (2004). The Trojan horse within. Current Concerns, no.l, 2004.
Prais, S. J. (2003). Cautions on OECD’s recent educational survey (PISA).0xford Review of Education, vol. 29, no. 2, 2003.
Prais, S. J. (2004). Cautions on OECD’s recent educational survey (PISA): Rejoinder to OECD’s response. 0xford Review of Education, vol. 30, no. 4, 2004.
Schmidt, W., Houang, R., Cogan, L. (2002). A coherent curriculum. American Educator, summer 2002.
Smithers, A. (2004); England’s education. What can be learned by comparing countries? University of Liverpool.
Topping, K. e.a. (2003). Policy and practice implications of PISA 2000. Report of the International Reading Association, PISA Task Force.
Wang, J. (2001). TIMSS primary and middle school data: some technical concerns. Educational Researcher, vol. 30, no. 6, p. 17 – 21.
Wuttke, J. (2006) Fehler, Verzerrungen, Unsicherheiten in der PISA-Auswertung. In: Jahnke, T. PISA & CO, p. 101 – 154.

Toelichting

0. De officiële PISA (2000, 2003, 2006) en TIMSS (1995, 1999, 2003) rapporten, bij elkaar vele tienduizenden pagina’s, zijn niet aan de Bijlagen toegevoegd. Ze zijn gratis te downloaden; zie hiervoor de Referenties.
De kritiek op PISA en TIMSS begint al net zo’n onoverzichtelijke omvang te krijgen als de hoofdverslagen van de afnames, de nationale rapporten (die vaak veel meer en soms tegenstrijdige informatie bevatten), de brochures, handleidingen, technische rapporten, data-bestanden enz. De geïnteresseerde lezer kan daarom het best beginnen met de publikaties waarin de kritiek wordt gerubriceerd en samengevat: Smithers (2004); Prais (2003, 2004), de PISA-repliek van Adams (2003); Jahnke (2006) en Wuttke (2006); Haahr (2005) waarin niet alleen kritiek te vinden is maar ook bijval, men is gewaarschuwd; Hagemeister (2006); Topping (2003); Bender (2003).

1. De belangrijkste en in alle landen geuite kritiek op PISA en TIMSS richt zich op de validiteit van de testopgaven voor de nationale leerplannen. Daar komt uiteraard de gebruikelijke kritiek op onzorgvuldig geconstrueerde of slecht vertaalde opgaven bij die ook nu substantieel is (zie hiervoor Hagemeister, 1999; de repliek van Baumert e.a. 1999; Bender, 2003, par.3.2). TIMSS, anders dan PISA, gebruikt opgaven die proberen aan te sluiten bij de verschillende nationale leerplannen, zoals bedoeld en uit het gebruikte leermateriaal is af te leiden. Het zijn opgaven die een antwoord moeten geven op de vraag: wat heb je geleerd? Testopgaven van internationale surveys staan altijd aan hevige kritieken bloot, transnationale leerplanvaliditeit is kennelijk zeer moeilijk te realiseren. In een land als de VS, waar een aanhoudende Math War tussen realistische (conceptuele) en traditionele (algorithmische) wiskunde geleid heeft tot dito leerplannen en soms een mix van deze binnen één school, is zelfs nationale leerplanvaliditeit niet haalbaar. Ook zonder Math War en omstreden onderwijsvernieuwingen (elke vernieuwing stuit op tegenstand!) verschillen leerplannen binnen en tussen landen aanzienlijk van elkaar (Bracey, 2000; Clarke, 2001, par. 3). Testopgaven van internationale surveys zullen altijd beter aansluiten bij het curriculum van land X, een voordeel, dan van land Y, een nadeel. De posities van landen op de ranglijsten van TIMSS (en van PISA, zie punt 2) laten in de tijd onverklaarbare en grote wisselingen zien (Bender, in Jahnke, 2006, p.193; Smithers, par. 71 t/m 74). Soms eindigen landen met zeer uiteenlopende leerplannen ex aequo in de landenranglijst ( Belgie en Nederland bij TIMSS 2003, De Lange, fig. 5, p.19) en komt het voor dat bijvoorbeeld Wallonië en Vlaanderen met hetzelfde onderwijs dramatische verschillen opleveren. Hiervoor ontbreken verklaringen: deze ranglijsten deugen dus niet. “One number tells all”, gaat niet op. In oude TIMSS-rapporten worden de ranglijsten nog onder veel voorbehoud gepresenteerd (TIMSS II, Baumert, J e.a. 1997: TIMSS – Mathematisch-naturwissenschaftlicher Unterricht im internationalen Vergleich. p. 18 e.v.), in de latere is van deze terughoudendheid geen spoor meer te bekennen.

2. PISA ziet niets in transnationale leerplanvaliditeit (Smithers, par. 20) en introduceerde de term Literacy (reading, RL; mathematics, ML; science, SL). Voor een vergelijking van PISA- met TIMSS-vragen zie Smithers, par. 24 t/m 30. Met de “skills for life” kwam men van de regen in de drup. Ook na veel pagina’s slaagt bijvoorbeeld De Lange, nota bene voorzitter van de PISA Expert Group for Mathematics, er anno 2006 nog steeds niet in duidelijk te maken wat literacy op het gebied van wiskunde betekent voor het dagelijkse leven van vijftienjarigen, en voor wiskunde trouwens ook niet.. Ook de herhaalde en wijdlopige pogingen in de eindverslagen slagen daar niet in. Dat kan maar één ding betekenen: de literacies zijn competenties (Bender, 2003, par. 3.3 t/m 3.7; Bender, 2004): niet goed te definiëren, moeilijk te instruëren, niet te toetsen leerdoelen die, als de docent ze serieus neemt, in korte tijd elk onderwijs in een toestand van gewichtloosheid brengen
De PISA-test die los staat van het nationale leerplan is geen directe meting van de resultaten ervan en kan de kwaliteit van de onderwijsstelsels in deze landen in dit opzicht niet met elkaar te vergelijken. Zonder leerplanvaliditeit geen landenranglijsten en geen terugkoppeling van uitkomsten naar leerplan. Zelfs geen profijt voor de onderwijspraktijk omdat de testvragen competenties bestrijken. Tel uit je winst.
De posities van de landen op de ranglijsten van PISA hebben, net als bij die van TIMSS, op zich weinig betekenis (zie Haahr, p.33 e.v.). In het eerste grote PISA rapport zeggen de auteurs dat ook zelf met zoveel woorden (PISA, 2000, Knowledge and Skills for life, p. 26 en p.212). Noch TIMSS, noch PISA zijn in staat goede verklaringen te bieden voor de verschillende posities van de landen (Smithers, par. 113). Daarvoor schieten de instrumenten en de achtergrondvragenlijsten te kort (Smithers, par. 106). Helaas is deze juiste inschatting inmiddels zowel door TIMSS als door PISA zonder enige toelichting verlaten.

3. Wat meet PISA dan wel? De opgaven lijken op die van de CITO-toetsen. Dat is geen wonder want het CITO en het Freudenthal Instituut zijn belangrijke producenten van de PISA-opgaven, een geducht voordeel voor Nederland en een nadeel voor alle andere landen die het bovendien met vertalingen moeten doen. Meyerhöfer meldt zelfs dat enige PISA-opgaven uit Nederlandse schoolboekjes stammen. In: Jahnke, p.135 e.v., maar dit terzijde. Dekker, T., e.a. ( T. Dekker, K. Lagerwaard, J. de Lange e.a.; Wiskundige geletterdheid volgens PISA – Hoe staat de vlag erbij? 1. Analyse. Freudenthal Instituut-PISA/Citogroep, 2006, p. 105) melden: “Dat Nederland goed scoort bij Wiskunde kan deels verklaard worden uit het feit dat het curriculum in Nederland meer past bij de wiskundige geletterdheid uit PISA dan dat van veel andere landen.”
Behalve dit thuisvoordeel meet PISA een onscherpe mix van intelligentie, kennis en ervaring: gezond verstand dus (Prais, 2003, p. 141 – 145). Smithers wijst op de per land vrijwel even hoge scores op de drie literacies en noemt PISA daarom een algemene leesvaardigheidstest (Smithers, par. 50; 92 – 95). Wanneer PISA inderdaad gevoelig is voor de intelligentie komen alle uitkomsten in een nieuw licht te staan, tenzij men van oordeel is dat intelligentie een competentie is die op school wordt geleerd. Helaas zoekt men in de tientallen officiële verslagen tevergeefs naar de woorden intelligentie, aptitude, geschiktheid, capaciteiten of IQ.

4. Uiteraard verschillen de onderwijsstelsels van landen op nog veel meer factoren dan alleen de inhoud van de leerplannen en zijn allerlei andere condities en culturele verschillen van invloed op de resltaten (Le Tendre, et al. 2001). Om er enkele te noemen: beschikbaarheid van middelen, discipline in de klas, het belang dat aan vakken wordt toegekend, werkomstandigheden van leraren, status van het lerarenberoep, klassegrootte, opleiding van leraren, de sociaal economische status van de opleiding en het beroep van de ouders, de ‘leer’steun van ouders aan hun kinderen (parental involvement), ervaring met meerkeuze-vragen (in nogal wat landen niet in gebruik, in ongeveer eenderde van de testopgaven wél), de aanwezigheid en omvang van achterstandsgroepen met een taalachterstand, kortom een niet afzienbare reeks van soms op hun beurt samengestelde factoren die van invloed zijn op onderwijsresultaten en verondersteld dus ook op de uitkomsten van de surveys. Als voor deze en hier niet genoemde factoren niet of verkeerd wordt gecontroleerd dan zijn de interpretaties en de conclusies van PISA en TIMSS, en met name de landenranglijsten, minstens aanvechtbaar en soms betekenisloos (Bracey, 2000; Wang, 2001).

5. Hier volgt een kleine selectie van factoren en kwesties waarbij het volgens de critici erg mis ging.
5.1 De samenstelling van de steekproeven van respondenten en scholen laten tussen landen grote verschillen zien, zie ondermeer Smithers, 2004, par. 31 t/m 42; Prais, 2003, p. 145 – 152. Zo zijn de Zweedse leerlingen ouder, voor TIMSS tot gemiddeld een half jaar, dan de Duitse waarmee het hele verschil tussen deze twee landen kan worden verklaard (Bender, in Jahnke, 2006, p.192). Zie hierover ook Wuttke, par.8, p.114. Ook de percentages respondenten die uitvallen (testweigeraars, schoolverlaters –zwakke lln. staken het eerst, enz.) verschillen per land aanzienlijk. Over al deze groepen zijn te weinig kwalitatieve gegevens verzameld zodat het maar de vraag is of de ingezette “reserves” wel representatief waren (Prais, 2004, p.571). Veel meer kritiek op de samenstelling van de steekproeven bij von Collani (2000, par. 3 en 4) die stelt dat, behalve Nederland, vijftien andere landen uit PISA 2000 hadden moeten worden verwijderd wanneer men zich aan de eigen standaarden had gehouden (par. 5). Die standaarden zijn vaker met voeten getreden, ondermeer waar het de regels voor het uitsluiten van deelname van bijzondere groepen leerlingen betreft en regels voor de gang van zaken rond niet volledig ingevulde testboekjes (Wuttke,2006, par. 3 t/m 5 en 7).
5.2 Verschillen tussen landenscores zijn soms op zeer voor de hand liggende factoren te herleiden. Zo meldt De Lange (2006, pag. 20, TIMSS-tabel 6), die kennelijk bezig is de poten onder z’n eigen stoel weg te zagen, dat de tijd besteed aan het vak wiskunde van land tot land verschilt en dat in Singapore, de “winnaar” van de ML-competitie, gewoon de meeste tijd aan dit vak wordt besteed. Dat deze tijdfactor hier bijna rechtlijnig van invloed is op de resultaten heeft men niet gezien of niet willen zien. Men beschikte, zo meldt De Lange, wel over de gegevens.
5.3 Met het gegeven dat leerlingen met een taalachterstand als gevolg van een migratie-achtergrond aanzienlijk lager scoren wordt in de surveys onvoldoende rekening gehouden, zie hiervoor Hagemeister, 2006, par.7; ook te vinden in Jahnke, 2006; Bender, 2005, par. 1.5. Voor de lagere scores zie verder Smithers, par.68 t/m 70, tabel 13; in die tabel ook de percentages respondenten met migrantenachtergrond per land. Die percentages lopen zeer uiteen. Finland 1,2%; Japan 0,1%; Duitsland 15,2%; Zwitserland 20,7%. Sommige landen, Ierland bijv. en Canada 20,6%, selecteren naar opleiding bij de toelating van migranten, andere landen doen dat niet of doen heel weinig aan gezinshereniging. Emigranten uit Aziatische en Oost-Europese landen zijn gemiddeld veel beter geschoold dan emigranten uit islamitische landen. Verder houdt PISA geen rekening met het gegeven dat emigranten naar angelsaksische landen in het algemeen een veel kleinere taalachterstand hebben dan emigranten naar landen als Nederland en Duitsland.
5.4 Het belang van de klassegrootte wordt door PISA foutief ingeschat. Die zou niet belangrijk zijn omdat landen als Japan en Korea zeer hoog scoren en met grote klassen werken. (Even terzijde: deze betoogtrant is een voorbeeld van de door PISA en TIMSS zeer veel toegepaste bivariate analyse, bestaande uit een simpele correlatie tussen een score en één potentiële determinant). Nu is uit de literatuur genoegzaam bekend dat het verband tussen klassegrootte en resultaat wel degelijk bestaat, niet rechtlijnig is, en dat met name zwakke groepen lln. van kleinere klassen en meer aandacht profiteren. Voor literatuur hierover en de foutieve behandeling van dit thema in PISA raadplege men Hagemeister, 2006, par.2.
5.5 Voor zwaarwegende kritiek op het ondoorzichtige en vermoedelijk incorrecte gebruik van de psychometrische statistiek raadplege men Prais, (2003, Annex, p.159), Goldstein (2004) en Von Collani (2001). Ook het volgende punt verdient de aandacht omdat ermee vergelijkbare onzorgvuldigheden schering en inslag zijn. In het landenrapport van de VS (Outcomes of Learning, 2002, p. 11) staat in de landenlijst voor Reading Literacy een grote middengroep van 20 landen, waaronder Duitsland en Nederland, die niet significant van het VS-gemiddelde verschillen. Er is een kopgroep van drie (Finland, Canada, Nieuw-Zeeland) en een staartgroep van vier. In andere landenrapporten, het Duitse bijvoorbeeld, (PISA 2000, Zusammenfassung zentraler Befunde, p. 13) telt die middengroep slechts zes landen en komt Duitsland in de staartgroep terecht. Hier koos men het OECD-gemiddelde als vergelijkingspunt (slechts 4 punt lager dan dat van de VS).
Het is duidelijk dat de verschillen tussen de landen niet groot zijn, niet meer dan 10% van de totale variantie in de scores is toe te schrijven aan verschillen tussen landen. Vandaar waarschijnlijk die vreemde uitkomsten en onverklaarbaar grote verschuivingen van posities binnen de ranglijsten (zie punt 1), vandaar dat je eigen landje met een kleine ingreep zomaar in de staartgroep kan belanden.
5.6 PISA speelt met de ranglijsten in de hand een eigen politieke agenda uit. Deze bestaat heel in het kort gezegd in het bevorderen van de middenschoolgedachte, het nastreven van zowel equality als equity. Meer hierover bij Naylor, 2004. Smithers, par. 61 t/m 67; 107 t/m 110) laat zien welke fouten zijn gemaakt bij het bepalen van de PISA-maat voor equality. De politieke voorkeuren van PISA laat ik verder maar rusten.

Onderlinge vergelijking van scores van TIMSS en in mindere mate die van PISA kunnen voor elk land afzonderlijk nuttige informatie opleveren (een goed voorbeeld geeft Prais, 2003, p.144; zie ook Schmidt et al. 2002) maar lenen zich niet voor vergelijking van de kwaliteit van nationale onderwijsstelsels (Smithers, 111 t/m 114). Wie denkt Finland, Duitsland, Turkije, Singapore en de VS met elkaar te kunnen vergelijken moet met iets anders komen dan de opgaven en de enquêtes van PISA en TIMSS. Iedereen die roept dat ons onderwijs internationaal bij de top behoort zegt maar wat en gebruikt een dooddoener. De landenlijsten zijn misleidend en daarom nutteloos.

Willem Smit

PresleyBergen
7 februari 2007 om 23:40

scorebord
Noemde een bekende Nederlandse filosoof uit Alkmaar dat niet: scorebordjournalistiek?
- wsmitharmelen
  8 februari 2007 om 15:00
  
  re scorebord
  Goed woord, Ralph
  Mag ik het van je lenen als ik in mythe 5 nog wat wijzig?
  En wie is die filosoof uit Alkmaar?
  Willem Smit
- wsmitharmelen
  9 februari 2007 om 06:30
  
  ach ja
  Je bedoelt natuurlijk Van Gaal.
  Willem Smit
  - Catilina
    9 februari 2007 om 12:34
    
    ach nee
    Co Adriaanse.
    - wsmitharmelen
      9 februari 2007 om 16:01
      
      filosofen vd middencirkel
      Je hebt helemaal gelijk Catilina.
      Willem Smit
wsmitharmelen
4 februari 2008 om 10:16

Engelse vertaling van Mythe 5 toegevoegd
Ik heb de Engelse vertaling van mythe 5 aan de bijlagen toegevoegd onder de titel: But internationally we’re OK.
Je weet maar nooit waar het goed voor is.
Willem Smit

6 Reacties