Proefschrift over PIRLS (internationaal onderzoek naar lezen)

Een jaar geleden promoveerde Mieke van Diepen op dit proefschrift. Naar aanleiding daarvan kwam een persbericht met de titel `Leerling leest beter in gemixte klas’ uit dat de BONsite haalde. Ik beloofde toen een bespreking van het proefschrift te geven en sinds belofte schuld maakt, bij deze.

Nu alvast twee conclusies naar aanleiding van het persbericht. Daarin wordt gesteld dat goede leerlingen en slechte leerlingen samen in een klas zetten betere resultaten oplevert. Het proefschrift laat dit echter niet zien: wat wel uit de cijfertjes volgt is dat klassen met weinig sociaal zwakke en allochtone leerlingen het beter doen dan klassen met veel van die leerlingen. Of spreiden van deze leerlingen betere resultaten oplevert valt op grond van het onderzoek niet te zeggen (maar dat weerhoud de onderzoekster er niet van dit toch te doen). In het persbericht wordt ook gesteld dat grotere klassen beter presteren dan kleinere klassen, dit blijkt inderdaad uit de cijfers. Maar in het persbericht wordt de relatie gelegd met zelfstandig werken en Het Nieuwe Leren. Dit is niet onderzocht en deze conclusie is dan ook niet gerechtvaardigd.

De onderzoekster gebruikt data van PIRLS (Progress in International Reading Literacy Study) 2001. Dit is een zusje van het bekendere PISA, maar kijkt alleen naar lezen. Verreweg het interessantst vond ik hoofdstuk 2 waarin gekeken wordt naar de validiteit van de PIRLS toets. In hoofdstukken 3,4,5 en 6 wordt op verschillende manieren de verzamelde data ge-analyseerd. Het meest opvallende aan deze hoofdstukken was dat de onderzoekster allerlei conclusies trekt die niet ondersteund worden door de data (hierboven zijn al 2 gevallen gememoreerd).

Hoofdstuk 2: Validiteit van de toets

Of de PIRLS-toets een valide beeld geeft van het leesniveau in de onderzochte landen hangt van een aantal dingen af. Bepaalde landen kunnen bevoordeeld worden door:

Culturele vooringenomenheid van de teksten en de manier van toetsen,
Verschil in complexiteit tussen de verschillende vertalingen van de teksten,
Verschil in strengheid tussen de nakijkers in verschillende landen.

Culturele vooringenomenheid

Uit onderzoek blijkt overtuigend dat zowel bekendheid met het onderwerp van een tekst als het format van een toets belangrijke factoren zijn in prestaties op een leestoets. Het is bijvoorbeeld bekend dat alhoewel meisjes gemiddeld beter scoren op leestoetsen, jongens beter scoren wanneer het een tekst over sport betreft. Ook is het al vele malen aangetoond dat bekendheid met een toetsvorm tot betere resultaten leidt (vandaar bijvoorbeeld het oefenen met CITO toetsen en het bestaan van examenbundels). Aangezien bekendheid met bepaalde onderwerpen en bepaalde toetsvormen zeer sterk verschilt tussen landen kan het zo zijn dat de PIRLS-toets bepaalde landen bevoordeeld boven anderen. Dat wil zeggen: deze landen scoren niet hoog omdat de leesvaardigheid daar hoog is, maar omdat de leerlingen bekend zijn met de onderwerpen van de tekst en/of de toetsvorm.

De auteur erkent deze problemen, maar maakt zich hier makkelijk van af met de opmerking:

To minimize cultural bias, all of the participating countries collaborated closely. Representatives from all of the countries helped to select the passages to be read and contributed to the development of the test items. The different countries were also asked to point out any cultural incompatibilities during the early stages of test development.

We krijgen dus enkel te horen dat PIRLS zijn best heeft gedaan om culturele vooringenomenheid te voorkomen. We krijgen geen bewijzen dat dit daadwerkelijk gelukt is. Nu is dit ook moeilijk te onderzoeken, maar een mogelijkheid is om experts te laten beoordelen in hoeverre de onderwerpen van de teksten en de toetsvorm aansluiten bij de lespraktijk in een bepaald land. Idealiter zou dit een vergelijking moeten zijn tussen verschillende landen (dan moet je dus experts hebben die bekend zijn met tenmiste twee verschillende landen), ongeveer zoals de auteur wel doet voor haar onderzoek naar de vertaling van de teksten.

Vertaling van de teksten

De auteur laat 6 experts de (engelse) brontekst en de nederlandse vertaling beoordelen op complexiteit van inhoud, tekststructuur, zinstructuur en complexiteit van de vragen. De resultaten staan in tabel 2.3 op pagina 30. Deze tabel correspondeert echter niet met de statistische gegevens onder die tabel (bijvoorbeeld: in de tabel zijn de cijfers voor Engels altijd groter of gelijk aan die voor Nederlands, maar de t-waarden onder de tabel hebben niet allemaal hetzelfde teken). Hier is ofwel sprake van typefouten of van twee zeer verschillende behandelingen van de data. Ik kan er geen kaas van maken. Er zijn bij dit proefschrift 2 promotors, een co-promotor en een manuscript commissie van 3 hoogleraren. Het hoofdstuk is ook (verbatim) als artikel gepubliceerd met als co-auteurs de 2 promotors en een 4e persoon en ik mag aannemen dat dit artikel gezien is door een editor en een aantal reviewers. Maar niemand van hen heeft deze inconsistenties blijkbaar opgepikt. Dat toont aan dat ze niet geprobeerd hebben om deze resultaten te begrijpen en dat is zeer kwalijk.

De auteur trekt de conclusie dat er geen significant verschil in complexiteit is tussen de engelse en de nederlandse versie. Dit is voor PIRLS natuurlijk de gewenste conclusie en dan komt mijn achterdocht tevoorschijn. De auteur kijkt niet naar complexiteit van de hele toets (door de 4 criteria te combineren). En dat is toch eigenlijk waar we in geinteresseerd zijn. Aangezien in tabel 2.3 alle richtingen gelijk zijn zou het combineren van de gegevens heel goed kunnen leiden tot de uitspraak dat de nederlandse tekst significant makkelijker is dan de engelse tekst. En dat is natuurlijk ongewenst voor PIRLS. Overigens, de experts zijn allen Nederlanders en hun oordeel over de complexiteit van de toets -die de engelse toets als (al dan niet significant) complexer lijkt te schetsen- kan dus ook een gevolg zijn van mogelijke overschatting van hun engelse leesvaardigheid.

De auteur telt ook nog het aantal woorden en het aantal karakters in de engelse en de nederlandse versies. Dit vond ik niet zo interessant.

Strengheid van nakijkers

De PIRLS-toets bevat zowel meerkeuze vragen als essay vragen. De essay vragen worden beoordeeld door een beoordelaar en ondanks een beoordelingsmodel is er natuurlijk de mogelijkheid dat beoordelaars qua strengheid verschillen. En als de gemiddelde strengheid verschilt van land tot land dan kan dit invloed hebben op de resultaten. Er is een manier om de strengheid te beoordelen: vergelijking van de score op de essay vragen met die op de meerkeuze vragen. Dit is dan ook wat de auteur doet. De context waarin dit gebeurt is echter vreemd. Om de PIRLS-toets te toetsen werd de toets afgenomen bij een testpopulatie. Naar aanleiding daarvan werden de `beste’ teksten en vragen geselecteerd en sommige vragen aangepast. De auteur beschrijft dit proces in studie 2 van hoofdstuk 2. Het is met de data van deze voorstudie dat de strengheid van beoordelaars wordt beoordeeld, niet met de data van de echte PIRLS-studie. Dit is vreemd.

De resultaten van deze exercitie staan in tabel 2.8 op pagina 37. De auteur vergelijkt Nederland met het internationale gemiddelde. Voor meerkeuze vragen is het percentage goed NL: 75, Int: 59 en voor essay vragen is dit NL: 59, Int: 45. Uit de statistische analyse die de auteur doet rolt dat meerkeuze vragen significant beter gemaakt worden dan open vragen, dat Nederland het significant beter doet dan het internationale gemiddelde en dat er geen significante interactie is tussen land en type vraag (dus Nederlandse beoordelaars lijken niet strenger dan het internationale gemiddelde). Interessant was geweest om een landenlijst te hebben gebaseerd op alleen de score op de meerkeuze vragen (dus geschoond van de oordelen van beoordelaars). Het zou immers zo kunnen zijn dat goede landen strenger zijn dan Nederland en slechte landen minder streng zodanig dat ze gemiddeld wel even streng zijn als Nederland, maar Nederland op de meerkeuze vragen landenlijst een aantal plaatsen lager staat dan op de landenlijst gebaseerd op alle vragen. Hier ontbreekt dus belangrijke informatie.

Conclusie hoofdstuk 2

Eventuele culturele vooringenomenheid van de PIRLS-toets wordt niet onderzocht. Het onderzoek naar de vertaling van de teksten heeft enkele gebreken (bijvoorbeeld: alle experts hebben Nederlands als eerste taal), maar is op zich goed. De verslaglegging is echter onder de maat: de auteur had de algehele complexiteit van de tekst moeten vergelijken door de 4 criteria te combineren en de cruciale tabel 2.3 en de bijbehorende statistische analyse leiden ofwel aan typefouten ofwel aan gebrek aan uitleg over de gebruikte methoden. De methode van het beoordelen van de strengheid van de nakijkers is slechts half goed: vergelijken van de scores op meerkeuze vragen en essay vragen is goed, de analyse beperken tot vergelijking van Nederland met het internationale gemiddelde is dat niet. Het is vreemd dat deze laatste analyse gedaan wordt met de data verkregen bij de testpolulatie en niet met de data verkregen in de werkelijke PIRLS-studie.

Hoofdstuk 3

Dit hoofdstuk gaat niet zozeer over PIRLS, er wordt enkel gebruik gemaakt van de PIRLS-toets (naast toetsen van het CITO en het SCO-Kohnstamm Instituut). Er wordt naar correlaties gezocht tussen de resultaten op de verschillende toetsen en de gegevens uit de verschillende vragenlijsten. Na wat hergroeperen van data en statistisch gegoochel worden er inderderdaad een aantal correlaties gevonden. De meeste hiervan zijn `dacht ik al’ en zijn in eerder onderzoek ook al geverifieerd. Een schijnbare uitzondering is de conclusie dat grote klassen beter zijn dan kleine klassen, maar ook hier is uit eerder onderzoek al bekend dat pas bij minder dan 20 leerlingen klassegrootte een effect heeft. Dit hoofdstuk is dus een niet erg zinvolle herhalingsoefening. Aangezien het een grote groep leerlingen betreft is het echter wel van enigerlei waarde als bevestiging van het ogenschijnlijk bekende.

Van dit hoofdstuk werd ik dus niet erg warm. Althans tot ik de conclusie las die begint met:

The results of the present study have some important implications for educational practice.

En die vervolgt met opmerkingen die erop neerkomen dat deze studie aantoont dat we allemaal aan Het Nieuwe Leren moeten. Op basis van deze studie kan daar echter helemaal niets over gezegd worden. Ik lees in onderwijsonderzoek wel vaker conclusies die geen enkele betrekking hebben op het uitgevoerde onderzoek, en dit is weer een fraai staaltje daarvan.

Hoofdstuk 4, 5 en 6

In deze hoofdstukken worden de resultaten op de PIRLS-toets in verband gebracht met de resultaten van PIRLS-vragenlijsten ingevuld door leerlingen, ouders, leraren en schooldirecteuren. In hoofdstuk 4 voor 9 West-Europese landen, in hoodstuk 6 voor 11 rijke landen en in hoofdstuk 7 voor de 5 beste landen. De gebruikte vragenlijsten zijn hoogst discutabel. Ik zal een voorbeeld geven. De kinderen wordt gevraagd of zij thuis (vaak/soms/nooit) een andere taal spreken dan de taal van de PIRLS-toets, de schooldirecteuren wordt gevraagd welk percentage van de leerlingen de PIRLS-toets taal als tweede taal heeft. Op basis van elk van deze vragen kun je een ranglijstje maken voor `overeenkomst thuistaal en toets-taal’, maar dit geeft twee totaal verschillende lijstjes, de relatieve posities zijn als volgt:

1 (7)
2 (6)
3 (1)
4 (2)
5 (4)
6 (9)
7 (8)
8 (5)
9 (3)

en aan de hand daarvan zou je niet zeggen dat beide hetzelfde zouden moeten meten. En dan zijn er vragen als opleidingsniveau van de ouders en economisch gedepriveerde huishoudens waarin de definities in verschillende landen nogal kunnen verschillen (in Zweden zijn er volgends de data meer economisch gedepriveerde huishoudens dan in Nederland of Frankrijk; ja ja en raad eens welk land het grootste aantal plattelandsscholen heeft: Zweden, Engeland, Bulgarije, Letland of Nederland; volgens de vragenlijsten is het Nederland….). Het gebrek aan goede data maakt deze hele exercitie hoogst twijfelachtig. Dit weerhoud de auteur er natuurlijk niet van om in de conclusies een aantal boude aanbevelingen te doen. Zo lezen we bijvoorbeeld in hoofdstuk 4:

Children should be stimulated to watch television.

Dit omdat de auteur uit de data haalt dat televisiekijken correleert met een hoge score op de PIRLS-toets. Echter, ze haalt ook uit de data dat computeren negatief correleert met de PIRLS-toets. Hierop volgt echter een verdere analyse die aangeeft dat zowel veel als weinig computeren negatief is en matig computeren postitief. Het zou heel goed kunnen dat hetzelfde geldt voor televisiekijken, maar dit wordt niet onderzocht; er wordt zonder meer gezegd dat televiekijken gestimuleerd moet worden.
Nog een aanbeveling van de auteur:

Policy should be implemented to force schools to maximize the number of instructional hours.

Hierbij voorbijgaand aan alle andere vakken (zoals rekenen) waar tijd voor moet zijn. Bovendien wordt in hoofdstuk 5 een multi-level analyse gedaan (een betere statistische methode dan wat in hoofdstuk 4 gebruikt wordt) en dan blijkt dat het aantal uren dat aan lezen besteed wordt niet significant bijdraagt aan betere resultaten…. Ook aan het eind van hoofdstuk 5 worden weer totaal ongefundeerde aanbevelingen gedaan zoals

High-risk students should be distributed over different schools and not concentrated within a single school.

Dit haalde dus het persbericht, maar deze aanbeveling wordt niet ondersteund door de data. Aan het eind van hoofdstuk 6 zien we Het Nieuwe Leren opduiken in de aanbevelingen

Teachers can stimulate social relations between students by encouriging them to cooperate within the classroom. Possible cooperation can be induced by together exploring a particular subject domain and providing feedback to each other.

Ook weer zonder enige onderbouwing in de data. Ook de brede school komt tevoorschijn:

Also, schools should be encouraged to involve parents in activities and decisions. Close cooperation between a wide area of educational institutes and institutes for family activation can positively affect development of children’s reading literacy.

Ook weer zonder enige onderbouwing vanuit de data.

Conclusie
Hoofdstuk 2 is heel aardig, maar vertoont een aantal gebreken. Vanwege de onbetrouwbaarheid van de vragenlijsten is de hele exercitie in hoofdstukken 3 tot en met 6 onbetrouwbaar. Vervolgens komt de onderzoekster ook nog eens met allerlei aanbevelingen die -zelfs al zou deze verzamelde data betrouwbaar zijn- helemaal niet getrokken mogen worden op basis van de data. Geen voldoende voor deze onderzoekster en haar promotor.