Toetsslimheid & de Citotoets

Deze pagina sluit aan op: Oefenen voor de Citotoets of niet: that’s the question. Door Willem Smit gestarte draad 6446.

Toetsslimheid – test-wiseness – is maar één van de zaken die van belang zijn binnen het thema voorbereidbaarheid, in het algemeen, en van de Cito Eindtoets Basisonderwijs in het bijzonder (de versie voor ouders 2010 dient als voorbeeld pdf). Het gaat om handigheid bij het aanpakken van de opdrachten in de toets, en of die handigheid is te leren of te trainen.

Toetsslimheid is een specifieke intellectuele vaardigheid, een persoonlijk kenmerk waarop leerlingen verschillen. In de mate waarin test-wise leerlingen beter scoren dan overigens even bekwame leerlingen, meet de Cito-toets de verkeerde vaardigheid. Dat is even ernstig als onbedoeld benadelen van leerlingen met Nederlands als tweede taal, om maar eens iets te noemen. De algemene noemer van dit soort scheef meten is wat in de literatuur bekend staat als scheefheid, partijdigheid of bias.

Ik neem als uitgangspunt het boek van Jason Millman en Walter Pauk (1969). How to take tests. Mc-Graw Hill. Daaruit hoofdstuk 8 Objective test items. Dit hoofdstuk is gebaseerd op Jason Millman et al. (1965). An analysis of test-wiseness. Educational and Psychological Measurement, 25. Dit lijkt heel ver weg, maar er is in de toetswereld op dit punt de laatste halve eeuw weinig veranderd. Meer recent werk is te vinden door te googlen op Millman en test-wiseness. Een goede indruk, ook van de commerciële kant, biedt deze pdf:
pdf.
Lees het argwanend.

Ik zal straks voor ieder van de vragen in de Eindtoets voor ouders 2010 pdf aangeven waar en waarom ik vermoed dat toetsslimheid een rol speelt. De test-wiseness onderwerpen uit hoofdstuk 8 van Millman en Pauk zijn dan:

  • 1. algemene aanbevelingen voor het maken van toetsen. Tijd goed besteden, instructie en vragen goed lezen.

  • 2. Kies het alternatief dat de ontwerper heeft bedoeld. Probleem niet slimmer te zijn dan de vragensteller kennelijk bedoelt.
  • 3. Geef eerst antwoord op de vraag zelf, kijk daarna pas of dat ook een aangeboden alternatief is.
  • 4. Bestudeer altijd alle aangeboden alternatieven.
  • 5. Bestudeer iedere optie in relatie tot de gestelde vraag.
  • 6. Vergelijk alternatieven met elkaar.
  • 7. Redeneer logisch. Probeer alternatieven uit te sluiten.
  • 8. Gebruik informatie uit andere vragen in de toets.
  • 9. Let op kwalificerende woorden. Zoals ‘zelden’, ‘geen enkele.’
  • 10. Bij waar-onwaarvragen, alleen waar aanstrepen als dit ongekwalificeerd waar is
  • 11. Raad als dat je kans op een punt vergroot. Als je twee alternatieven kunt uitsluiten op een vierkeuzevraag, raad dan.
  • 12. Probeer niet om zwakten in de vraag uit te buiten. Vooral bij door docenten zelf gemaakte keuzevragen komen kenmerkende gebreken voor die het mogelijk maken zonder kennis toch de juiste alternatieven te vinden. Het advies is om tijd te besteden aan inhoud, niet aan vermeende ontwerpzwakten.

Grappig is dat Millman en Pauk gebreken in toetsvragen afzonderlijk noemen, nr. 12, terwijl onder de overige 11 punten toch ook veel gebrekkigheid voorkomt. Het probleem is dat Millman en Pauk bepaalde gebreken van meerkeuzevragen niet als zodanig willen aanmerken. De punten 3, 4, 5 en 6 zouden m.i. tot de studievaardigheden van alle leerlingen moeten behoren, althans zolang zij te maken blijven hebben met high-stakes tests zoals de Eindtoets, dus toetsen waar henzelf veel van afhangt. In dit specifieke geval hebben school en leerlingen hetzelfde belang.

In mijn Toetsvragen ontwerpen hier is de insteek dat het ontwerp van de toetsvraag testslimme kandidaten geen voordeel op moet leveren. (Op de punten 3, 4, 5 en 6 mag een redelijke basisvaardigheid bij alle leerlingen worden verondersteld)

Even terug naar de in de voorgaande draad genoemde triarchic intelligences van Robert Sternberg (cognitieve, creatieve en practische intelligentie). Bij Millman & Pauk nr 2. zou het zomaar kunnen zijn dat de creatief ingestelde leerlingen meer moeite hebben om de bedoeling van de ontwerper van de vraag te ontdekken: zij zijn er juist goed in om andere ‘bedoelingen’ te bedenken. De praktisch intelligente leerlingen zouden ook een handicap kunnen hebben als het zo is dat de vragen in de Eindtoets voortdurend aanspraak maken op slim redeneren, in plaats van praktisch redeneren.

Een heel ander probleem ligt op de loer voor leerlingen met Nederlands als tweede taal. Ik wil op dit grote probleem in deze draad niet diep ingaan. In de engelstalige literatuur zijn wel publicaties te vinden over tests voor test-wiseness bij leerlingen met Engels als tweede taal (ESL, English as Second Language) (zie ook E. W. Orr: Twice as less; black English and the performance of black students in mathematics and science.)

Tenslotte is een ernstig en verwant probleem dat van toetsangst (test anxiety), een soort negatieve testslimheid. Dit is een probleem dat meer aan de kant van de leerlingen lijkt te liggen, dan aan die van de toets. Maar we zouden samen (veld, politiek) kunnen besluiten dat we geen Eindtoetsen of andere high stakes toetsen meer afnemen.

Vooraf.

Deze hele oefening is natuurlijk tentatief. Waar gaat het om: als vragen in de Eindtoets de indruk kunnen wekken dat de toetsslimme leerlingen er een voordeeltje bij hebben, dan is het aan het Cito om aannemelijk te maken dat die indruk onjuist is. Bewijzen dat bepaalde toetsvragen partijdig zijn, is methodologisch buitengewoon lastig (Frank Kok, 1988, Partijdigheid, proefschrift UvA), en is m.i. ook niet de beste manier waarop mogelijk partijdige toetsvragen het best gesignaleerd kunnen worden. Beter: geef na afname de hele Eindtoets vrij, zodat belangengroepen de vragen zelf kunnen onderzoeken op mogelijke partijdigheid.

Omdat gevoeligheid voor toetsslimheid zo nauw samenhangt met gebreken in het ontwerp van een toetsvraag, is het mogelijk om gevoeligheid voor toetsslimheid op te sporen door te onderzoeken of er zwakten zitten in het ontwerp.

Let op. Het gaat om verschillen in toetsslimheid. We hebben geen belangstelling voor niveaus van toetsslimheid waarvan het evident is dat alle deelnemers daar wel aan voldoen. Hetzelfde voor verschillen in intelligentie: een toetsvraag toetst op intelligentie naarmate verschillen in intelligentie bepalend zijn voor het resultaat. Toetsslimheid en intelligentie hebben veel met elkaar te maken, zijn deels gelijk, zij het dat toetsslimheid ook nog wel op korte termijn is te trainen, intelligentie niet.


De hier te analyseren Eindtoets voor ouders 2010 staat op de website van het Cito www.cito.nl/po/lovs/eb/Cito_EB09_EindtoetsOuders.pdf.

Ik zal alle 20 vragen in deze toets analyseren, maar omdat het geheel nogal uitgebreid is, geef ik hier alleen de analyse van vraag 4, en verwijs ik voor de analyse van alle 20 vragen naar
www.benwilbrink.nl/projecten/toetsslimheid.htm

Opgave 4

Vul de zin aan.
Iemand die neerslachtig is, is …..

A. Bang voor regen.
B. heel erg moe.
C. in een sombere bui.
D. tegen geweld.

Leuk gevonden, deze alternatieven. De leerling die eerst zelf het antwoord geeft, komt er wel uit. (Nr. 3 M&P (Millman & Pauk, hoofdstuk 8, paragraaf 3))
Wie niet zeker is, moet kiezen tussen ‘heel erg moe’ en ‘in een sombere bui’. De toetsslimme leerling beredeneert dan (nr. 7 M&P) dat heel erg moe zijn en in een sombere bui zijn, vaak samengaan, maar dat alleen maar erg moe zijn zonder somber te zijn, niet neerslachtig is. Dit lijkt me een tamelijk zuiver voorbeeld van wat M&P met beredeneren van het juiste alternatief bedoelen. Hier is toetsslimheid voor nodig.
Maar de leerling die om te beginnen al weet dat neerslachtig somber is, die kruist toch meteen het goede alternatief aan? Helemaal niet, tenminste niet als zij toetsslim is, want dan gaat ze volgens advies nr. 4 van M&P na hoe het zit met de andere alternatieven, komt erop uit dat er twee aannemelijke alternatieven zijn met elkaar vergeleken moeten worden (nr 6 M&P) en komt dan uit op de noodzaak om te beredeneren welk alternatief het beste is (nr 7. M&P).
Ik vraag me af wat alternatieven A en D hier eigenlijk doen: ‘bang voor regen’ en ’tegen geweld’. Ik vind dit een ontwerpfout: dit zijn waarschijnlijk onzinalternatieven, en met onzin hoor je leerlingen niet op te zadelen. (Het is best mogelijk dat bij een try-out in de ontwikkelfase er leerlingen zijn geweest die hebben opgeschreven dat neerslachtig betekent ‘bang voor regen’, of ’tegen geweld’, maar dan nog geldt dat het voor de meeste leerlingen onzin is). De toetsslimme leerling hoeft er niet mee te zitten, die streept de onzin nuchter weg. Het kost wel tijd, allemaal. Waarom niet gewoon een tweekeuzevraag? Om met die vierkeuzevraag nog onderscheid te kunnen maken tussen zwakke en heel zwakke leerlingen?

Ben Wilbrink.

56 Reacties

  1. Dit jeukt
    Op deze manier is er geen toets die de toets van de kritiek kan doorstaan.
    Wat ben ik blij dat ik mijn proefwerken zelf mag samenstellen en beoordelen en dat ik door herhaalde metingen een goed beeld krijg van de capaciteiten van leerlingen voor mijn vak. Een beeld dat getoetst wordt aan vakgenoten en eindexamens.
    Ik verwacht dat me nu streng de les zal worden gelezen over zoveel willekeur.

    • Het jeukt landelijk
      De Eindtoets is een landelijke toets. Hij wordt gebruikt en ook misbruikt voor beslissingen die stevige impact kunnen hebben voor individuen. Voor scholen ook, trouwens.
      Er is dus alle reden om naar zo’n toets heel kritisch te kijken, in dit geval vanuit de zorg dat het mogelijk is dat sommige leerlingen (ouders) een oneerlijke voorsprong op anderen kunnen krijgen.
      Er zijn landen waar een en ander op dit punt helemaal uit de hand is gelopen.

      Met proefwerken die docenten zelf maken en afnemen, heeft dit alleen zijdelings te maken.
      Voor de klassikale situatie heeft Hendrikus H. groot gelijk: de docent heeft een goed beeld van de capaciteiten en vorderingen van individuele leerlingen, gevoed dor hun prestaties op proefwerken.

      Koppel dat terug naar de overgang van BO naar VO, waarin de Eindtoets en het advies van de school een rol spelen. Dat advies is het professionele oordeel van de leraar die zijn of haar pappenheimers goed heeft leren kennen, de Eindtoets is een momentopname door een eenzijdig instrument. Dat advies moet doorslaggevend zijn, de Eindtoets kan dat ondersteunen. Niet omgekeerd.

      In een andere draad is er discussie over de discrepantie tussen SE en CE. Bij het schoolonderzoek zou er te hoog worden gecijferd. Van het advies van de basisschool wordt ook wel gezegd dat die optimistischer zijn dan de Cito-scores. Let op dat in de pers de norm stilzwijgend wordt gelegd bij de landelijke toetsen: Eindtoets, CE, niet bij het professionele oordel van docenten. Kritische analyse van de vraagstellingen in die landelijke toetsen is ook nodig om daar een tegenwicht tegen te krijgen: er valt wel een en ander af te dingen op de claim dat deze landelijke toetsen het ultieme criterium zouden vormen voor wat leerlingen in het zesjarige traject dat eraan vooraf is gegaan, hebben bereikt.

      • Aan me nooit niet!
        Als ik 50 jaar geleden als akademisch gevormde vader van het “Hoofd der School” (lagere school) zou horen dat kijn kind te dom was voor het Gymnasium of de HBS zou ik ten zeerste vrezen dat hij gelijk had. Of ik zijn oordeel over een kind uit de arbeidersklasse zou geloven weet ik niet. Onderwijzers waren hoog opgeleid maar of ze zich genoeg van klassevooroordelen zouden kunnen los maken betwijfel ik. Nu het niveau van de onderwijzers als maar daalt voel ik er niets voor om mij bij een eventueel laag advies van de directeur van een basisschool neer te leggen. Ik zou alle proefwerken van mijn kind willen inzien en die willen kunnen vergelijken met de proefwerken van zijn medeleerlingen en hij zou met overtuigend bewijs moeten komen aanzetten. Bij de geringste twijfel aan het oordeel van de groepsleraren of de uitslag van de CITO-toets zou ik mijn kind door een extern bureau uitvoerig laten testen op zijn capaciteiten. Maar dat hangt natuurlijk ook sterk af van de indruk die ik heb van de groeps-leraar of -leraren van mijn kind.
        Seger Weehuizen

  2. toetsvaardigheid
    Ten eerste: ‘Neerslachtig’ lijkt op neerslag. Een leerling die het woord neerslachtig niet kent, zou dus voor deze optie kunnen kiezen. En misschien legt ’tegen geweld’ een vaag verband met ‘neerslaan van het geweld’.

    Ik denk dat bezwaren terecht kunnen zijn, maar ook als een leerling zelf het antwoord formuleert, kom je in vaagheden terecht. Het antwoord kan dan ook half of misschien juist zijn, of ‘juist’ na een ingewikkelder omwegredenering die nader bevraagd zou moeten worden.

    Het is echter de praktijk dat de leraar opmerkt dat de leerlingen die hij hoger begaafd acht, die Cito-toetsen ook goed maken. De uitslag van die toetsen komt redelijk overeen met de inschatting die de leraar ook al had gemaakt. Bedenk dat hij de kinderen de hele dag ziet, 5 dagen per week, in wisselende omstandigheden. Als hij regelmatig zelf het werk van de leerlingen heeft nagekeken, heeft hij zeker een goed beeld gekregen van een leerling.
    Zolang Cito-uitslagen geen opmerkelijke afwijkingen vertonen, is men niet ontevreden met Cito.

    Ik heb leerlingen gehad die uit het buitenland kwamen (halverwege). maar die in no-time op een goed niveau terecht kwamen en hun achterstand, ook op taalgebied, hadden ingehaald. Die kinderen waren duidelijk intelligent.
    Maar ik heb ook buitenlandse kinderen gehad die hun achterstand nooit inhaalden, en dat had met hun zwakkere theoretische bekwaamheden te maken.
    Ondanks elk jaar extra hulp, bleef hun niveau relatief laag.

    Zelfs zittenblijven hoeft niet noodzakelijk verkeerd te zijn. Ik heb ouders en leerlingen gehad die erom hebben gevraagd nota bene.
    Kinderen zijn net als mensen nogal ingewikkeld.
    De school toetst theoretische bekwaamheden en kennis; niet noodzakelijk het hele kind.
    Dat school 100% aansluit op alle individuele mogelijkheden van elk kind, is een illusie. Men moet zoiets ook niet pretenderen.

  3. Alweer figuurlijk taalgebruik
    Is het jullie opgevallen dat je voor die 5 taalvraagjes bij 2 vraagjes wordt afgerekend op het beheersen van figuurlijk taalgebruik? “Blindelings volgen” , “neerslachtigheid”.

    Vinden jullie het niet vreemd dat het vocabulaire wordt getoetst terwijl veel kinderen nooit een woordenlijstje van buiten moeten leren?
    Hiermee worden kinderen uit achtergestelde milieus gediscriminiseerd. Een kind wat in Wassenaar of Blaricum in een villawijk woont zal in zijn milieu wel een goed vocabulaire opbouwen, iemand die matig opgeleide ouders heeft en in een rijtjeshuis woont zal waarschijnlijk langer nodig hebben om een goed vocabulaire op te bouwen.
    Met dat figuurlijke taalgebruik worden autistische kinderen ook nog eens sterk benadeeld aangezien die daar op die jonge leeftijd vaak nog slecht in zijn.

    Ik vind het toetsen van het vocabulaire een goede zaak maar wel pas nadat er lijsten zijn uitgegeven met alle woorden die het kind moet kennen of nadat kinderen zijn verplicht om een X aantal boeken te lezen waarin al die woorden voorkomen. Er op toetsen zonder kinderen een kans te geven om er voor te leren vind ik hypocriet en sadistisch.

    • Het gelijkheidsideaal?
      We kunnen er niet omheen dat kinderen uit verschillende milieus komen. Dat betekent bij alles wat een kind leert, dat hij/zij op alle gebieden een andere start heeft dan ander kinderen. Dat verschijnsel vat ik samen onder de noemer: kinderen verschillen.
      Die verschillen zorgen ervoor dat het een kind iets gemakkelijk kan, terwijl het andere kind dat nooit zou leren. Nu is je argument gelukkig subtieler: je zegt dat we kinderen alleen maar iets mogen toetsen als het daadwerkelijk op school is aangeleerd. Alle andere aspecten moeten buiten het toetsen blijven. Dat lijkt begrijpelijk, maar is in mijn ogen onmogelijk, want een kind dat thuis wel leert over “neerslachtig” heeft op school energie vrij om andere dingen te leren, dat kind leert sneller. Moet je het leerprogramma, de woordenlijst, nu ontwerpen op basis van kinderen die thuiswel of geen Nederlands spreken? In jouw voorstel moet je uitkomen bij de grootste gemene deler.

      Overigens heb ik me er ook wel over verbaasd dat er kennelijk geen lijsten van woorden en uitdrukkingen zijn die systematisch in het PO worden gebruikt, maar ja, dat krijg je er van als je uitgaat van de belevingswereld van het kind en als je denkt dat je alles op een natuurlijke manier kunt leren in een projectje ofzo.

      • Voor mij beslist geen gelijkheidsideaal,
        wel een degelijke voorbereiding.
        Het is daarom nog niet dat je met alle kinderen klassikaal al die woordjes, uitdrukkingen enz. moet stampen maar bied in ieder geval als school lijsten met woordjes en uitdrukkingen aan die de kinderen mee naar huis kunnen nemen zodat ze dat kunnen leren.
        Wanneer ze dan uit een intellectueel armer milieu komen kunnen ze dusdanig hun achterstand inhalen.

        Idem voor rekenen, aardrijkskunde en geschiedenis (ideaal gesproken ook nog wat biologie en een inleiding tot wetenschappen). Waarom krijgen die kinderen niet elke week een paar keer huiswerk mee? Een kind wat het al goed kan is er snel klaar mee, een kind wat er nog iets meer moeite mee heeft krijgt zodoende de kans om er extra aan te werken en met extra inspanning alsnog hetzelfde resultaat te behalen.
        Ook voor kinderen die om sociale redenen op school minder goed kunnen werken kan dit een middel zijn om dit te compenseren.

        We hebben in Nederland helaas de traditie dat het kind op de basisschool heel weinig middelen krijgt om zijn eigen situatie te verbeteren en zodoende sterk afhankelijk is van de kwaliteiten van zijn leraar en zijn thuismilieu. Wel rekenen we die kinderen keihard af op 11-jarige leeftijd.
        Dat vind ik hypocriet en sadistisch.
        Aleid Truijens had het eens mooi verwoord in haar column: ze vertelde hoe een buitenlandse vriendin zich erover verbaasde dat de kinderen hier 8 jaar lang niets hoeven te doen voor hun school om dan ineens met 1 test te bepalen naar welke school ze door mogen stromen.

        • Re. Bart
          De laatste moderne methode begon wekelijks met 20 dicteewoorden, die thuis geoefend moesten worden, en die dan in een dictee werden overhoord. De betekenis van woorden werd ook besproken. Dus dergelijke lijsten bestaan.
          Maar lijsten met woordbetekenissen zou ook niet gek zijn.
          Zelf heb ik wel eens een schriftje aangelegd waarin elk moeilijk woord dat we ergens tegenkwamen werd opgeschreven, waarna regelmatig mondelinge klassikale overhoringsrondjes volgden, net als het opzeggen van de tafels.
          Oefeningen met spreekwoorden en gezegden waren ooit gewoon gangbaar, en het is vreemd dat dit verdwenen is.
          De dictees in genoemde methode waren het enige gestructureerde dat ik mij herinner. De rest had een hoog babbel- en flutniveau.
          Wel bestaan er op de markt extra oefenboeken om allerlei zaken te oefenen. Die worden door veel scholen naast de methode aangeschaft. Maar dat kan niet de bedoeling zijn van een taalmethode.
          We zien daarbij een toenemende kostenpost die niet nodig zou hoeven zijn.

          Het onderwijs is toenemend voorzien van een grote hoeveelheid toeters en bellen, praatjesmakers en zakkenvullers, waarbij het kennisniveau vooral steeds maar daalde.
          Dat geeft de onderwijzer veel ergernis, al die lui die hem zo niet-productief voortdurend voor de voeten lopen.

          • re Moby
            Moby schrijft: De laatste moderne methode begon wekelijks met 20 dicteewoorden, die thuis geoefend moesten worden, en die dan in een dictee werden overhoord.
            Dat kreeg je meer dan 55 jaar geleden 1 of 2 keer in de week voorgeschoteld op de lagere school.

            Willem Smit

      • Basiswoordenschat
        Woordenlijsten, basiswoordenschat; ik zou er een lief ding voor over hebben als deze bestonden én gehanteerd zouden worden op basisscholen en VMBO’s. Ik ben nog dagelijks verbijsterd over de enorm beperkte woordenschat van mijn leerlingen in het MBO. Wat is een ‘argument’ mevrouw, vragen ze tijdens de toets maatschappijleer.

        Naast een paar duizend woorden in de basiswoordenschat, zou ik dan toch ook wel een flink aantal standaard uitdrukkingen in één of ander gegevensbestand willen vinden. Ja, en als het dan niet anders kan: gewoon dagelijks aanleren en overhoren.

        Er was een tijd dat je je woordenschat uitbreidde door te lezen, helaas is dit voor veel jongeren geen optie meer. In mijn klas zijn er maar weinig die zelf ooit één boek hebben uitgelezen. Naar het voorlezen heb ik veiligheidshalve maar niet eens gevraagd.

        • In de USA normaal
          In de Verenigde Staten van Amerika zijn basis word lists heel normaal. Een belangrijke reden daarvoor zijn toelatingsexamina tot vervolgopleidingen. De methode werkt meestal als volgt:
          De woordenlijst bestaat uit regels die beginnen met het woord waarvan de betekenis moet worden geleerd gevolgd door één of meer synoniemen die op hun beurt gevolgd wordt door een zin waarin dat eerstgenoemde woord gebruikt wordt.
          Na de woordenlijst volgt een test waarbij men uit 5 woorden het beste vervangwoord voor een bepaald woord uit de lijst moet kiezen.
          Door deze vorm bereidt het boek een leerling goed voor op een SAT-examen dat onderwdeel uitmaakt van een toelatingsexamen voor het Hoger Onderwijs.
          Ik vindt het jammer dat bij die methode de etymologie van het woord of zijn componenten buiten beschouwing blijft.
          Een voorbeeld van een basale woordenlijst is het boek BASIC WORD LIST van Brownstein, Weiner en Green ISBN 0-8120-9649-5 van Barron’s
          Seger Weehuizen

    • Toetsen zonder leren
      Nog even los van eventuele discriminatie vind ik het dubieus om te toetsen op dingen waar je je niet op kunt voorbereiden. Alleen bij een intelligentietest lijkt me dat redelijk.
      Ook in het landelijk eindexamen natuurkunde zie je dit verschijnsel. Men doet het welbewust, ik weet niet precies waarom. Officieel zal als reden wel opgegeven worden dat de kandidaat toch ‘op een ……… manier moet hebben leren denken’. Ik denk dat allerlei onuitgesproken motieven een veel grotere rol spelen. Men verspilt in het examen een hoop ruimte (plm. 10%) aan dit soort intelligentie-getoets dat de ruimte inneemt van recht-op-en-neer vaktechnische vragen. En men laat daardoor de vervolgopleiders in het ongewisse over wat de gediplomeerde nu precies wel en niet beheerst.

      Overigens zou ik me geen overdreven voorstelling maken van het vocabulaire van de inwoners van Wassenaar. Welvaart gaat lang niet altijd hand in hand met ontwikkeling.

  4. tweekeuzevraag
    Bij tweekeuzevragen wordt de kans dat een juist antwoord een toevalstreffer is, alleen maar groter.
    Daar wordt een toets alleen maar waardelozer van.

    • Raden
      @moby

      Over raden bij keuzevragen bestaan veel misverstanden. Dat bij tweekeuzevragen raden een grotere rol zo gaan spelen, lijkt logisch, maar is dat niet.

      1) In het voorbeeld van vraag 4 zijn twee van de vier alternatieven waarschijnlijk door bijna alle leerlingen als onjuist weg te strepen. Er staat in feite dus al een tweekeuzevraag!

      2) Tweekeuzevragen zijn sneller te beantwoorden dan vierkeuzevragen, zeker wanneer de ontwerper zo onhandig is om hele zinnen in de alternatieven te verwerken. Ergo: in dezelfde tijd kunnen er makkelijk anderhalf keer zoveel tweekeuzevragen worden gesteld dan vierkeuzevragen. Met dus ook een betere dekking van de leerstof.

      3) We moeten bij keuzetoetsen echt af van dat gedwongen raden bij niet weten. Mijns inziens kan dat via de rechter worden afgedwongen: bij open gelaten vragen moet het Cito toch een deelpunt toekennen, of willekeurig een antwoord kiezen. Zie A. D. de Groot in (1969) Studietoetsen.

      4) Als het voor een toets van belang is om tenminste een score x, maakt het verschil of de toets 200 vierkeuzevragen bevat, danwel 300 tweekeuzevragen. Waar zou de invloed van gedwongen raden groter zijn, voor een leerling met een beheersing van 80% Dat valt in beginsel uit te rekenen, maar ook te simuleren. Een instrumentje daarvoor is te vinden op deze pagina:

      www.benwilbrink.nl/projecten/spa_applet1.htm#1m

      Dit is iets ingewikkelder dan je zou verwachten, omdat je voor de simulatie ook moet specificeren hoe groot de kans is dat de leerling op een willekeurig gekozen vraag het foute antwoord geeft, in plaats van raadt.

      Met vriendelijke groet,

      Ben Wilbrink.

      • Ben Wilbrink
        Het is erg anti-intuitief wat u schrijft. Het lijkt mij, als niet wetenschapper, logisch dat een keuze uit 6 antwoorden de gokkans op het geven van het juiste antwoord aanzienlijk verkleint, en dat het kiezen uit 2 antwoorden de kans op een juiste toevalstreffer alleen maar vergroot.

        Persoonlijk zou ik een uitslag van een toets met tweekeuzevragen meer wantrouwen dan een toets met ‘veel meer’-keuzevragen.
        En als leerkracht probeer je gedwongen raden zoveel mogelijk te vermijden, door de leerlingen het nodige aan te leren.
        Als een leerling wordt gedwongen zelf een antwoord te formuleren, ontstaan er net zo goed grijze gebieden en ‘gok’antwoorden.

        De problemen die u ziet, lijken me erg academisch. Ik zie geen direct nut voor de gewone praktijk.
        Tenzij toetsontwerpers en methodemakers er werkelijk iets mee kunnen.

  5. Concluderend.
    Concluderend.

    Een dozijn vragen uit een voorbeeldtoets voor ouders is natuurlijk maar een heel kleine steekproef. En de analyse is maar een schrijftafel-analyse. Toch komt er m.i. een duidelijk resultaat uit:

    1. toetsslimheid kan een kleine voorsprong geven

    2. het zijn vooral kwaliteitsgebreken in de vraagstelling die dat mogelijk maken
    3. de benodigde toetsslimheid is te oefenen
    4. op punten als ‘goed lezen’ is het te verdedigen dat het basisonderwijs daar aandacht aan besteedt
    5. maar andere aspecten van toetsslimheid hebben louter met de toetsvorm te maken, en dat mag eigenlijk bij de Eindtoets geen rol spelen

    .

    Zelfs bij het kleine aantal bestudeerde vragen komen deze resultaten er sterk uit. De kleine omvang van de steekproef speelt geen rol.

    Het is een schijftafelanalyse. Het zou dus kunnen bljken dat 11-jarigen die de opgaven al hardop denkend maken, iets anders laten zien. Als dergelijk onderzoek bestaat, zou ik daar graag kennis van nemen.

    Toetslimheid ligt dicht bij intelligentie. De beter presterende leerlingen zullen ook de toetsslimmere zijn, en tegelijk die toetsslimheid minder nodig hebben. Maar de kwestie van voorbereidbaarheid van de Eindtoets is juist voor de andere leerlingen van mogelijk belang: zij zouden met een toetsslimme voorbereiding iets kunnen compenseren voor hun mindere kennis.

    Sternberg en Wagner verwachten overigens dat met goed en gericht onderwijs ook intellectuele vaardigheden aanzienlijk zijn te verbeteren.

    Op toetsslimheid analyseren van toetsvragen is een vruchtbare techniek.

    Ben Wilbrink.

    • Ik ben Ben,
      nog lang niet uitgelezen op de informatie op je site. Er is veel te vinden over de manieren waarop je kunt toetsen en de voorwaarden waaraan “eerlijke” toetsen moeten voldoen.
      En toch vraag ik me af wat het verband is tussen die “eerlijkheid” en de voorspellende waarde van i.c. de Cito-toets. Er zijn zonder moeite veel factoren aan te wijzen die mede een grote invloed hebben op het succes in het vervolgonderwijs. Het verschijnsel glijdende norm is daar een effect van. Zelfs in de economie lukt dat voorspellen alleen onder ceteris paribus voorwaarden.
      Dat relativeert mijns inziens de waarde van ‘objectieve’ toetsen en daarmee ook de mogelijkheid van ‘eerlijke’ toetsen.
      Kun je me naar litteratuur verwijzen die de break-even bekijkt tussen de energie/kosten om een toets ‘objectief’ te maken en de winst aan ‘eerlijkheid’ die dat oplevert?

      P.S. Ik blijf op dit forum ook anoniem omdat mijn achternaam repercussies kan opleveren voor de beroepsactiviteiten van mijn kinderen.

      • objectief eerlijk
        @hendrikush

        Beste Ben,

        Zullen we proberen om je vraagstelling precies te krijgen, en er dan een nieuwe draad op openen?

        Je snijdt vier onderwerpen en hun verband aan:

        1. voorspellende waarde van de Cito Eindtoets

        2. zogenaamd objectieve versus subjectieve toetsvragen
        3. eerljkheid van de toets
        4. kosten/baten van en en ander

        Over de voorspellende waarde van schooladvies en schooltoets is wel een en ander bekend, maar eigenlijk ook bedroevend weinig. Het is een knap lastig probleem, om vele redenen. In ieder geval is het van belang dat verschillen in studieprestaties tot stand komen vanuit een mix van verschillen in intellectuele capaciteiten en tijd besteed aan huiswerk. Wil je goed voorspellen, dan zou je die twee uit elkaar moeten houden, dus een intelligentietest afnemen, en de school vragen hoe het met die bestede tijd zit (daar vind je ook enorme culturele verschillen).

        Er is geen tegenstelling tussen objectieve en subjectieve beoordeling, in tegenstellng tot wat velen denken. Objectiveren, door keuzevragen en gedetailleerde modelantwoorden, resulteert alleen in schijn in meer eerlijkheid. Als daar de moeite voor wordt gedaan, dan is het advies om ermee te stoppen. De reden:

        Bij de kosten/baten afweging is m.i. van groot en onderschat belang dat meer tijd besteed aan ‘eerlijker’ beoordeling, ten koste gaat van tijd om goed onderwijs te geven, en dat is echt oneerlijk tegenover leerlingen.

        Wat is jouw idee om op verder te gaan?

        Ben Wilbrink.

        • Dit
          moet ik eerst eens goed laten bezinken.
          Is dit een provocatie? Vind je correctievoorschriften voor centrale examens het schieten met een kanon op een mug? Ontkracht je hier het vakgebied docimologie? Ben je een van diegenen die zich -, met DE GROOT – bezorgd maken over het nodeloos ontwikkelen van mathematische modellen. terwijl het feitenmateriaal beperkt en fragmentarisch is en de generaliseerbaarheid minimaal?

          • tegenintuïtief
            Nee, geen provocatie. Maar het is inderdaad zo dat mijn vak bestaat uit kennis die voor anderen vaak tegenintuïtief is (anders kan de wereld immers prima uit de voeten met wat de ervaring ons zo wel leert, en is onderwijsresearch overbodig).
            Voor landelijke centrale eindexamens zijn behoorlijke correctievoorschriften noodzakelijk om de vele beoordelaars in het land zoveel mogelijk op één lijn te houden. Maar dat heeft niet echt met eerlijkheid naar leerlingen toe te maken.
            Nodeloos ingewikkelde mathematische modellen: die vind je vooral in de statistische methoden, bijvoorbeeld de multiniveau-analyse die het GION gebruikt op de data van het VOCL-cohort (recent artikel in Pedagogsche Studiën), en dan kunnen onderzoekers de analyseresultaten voor jou en mij niet goed meer verklaren (discrepanties SE en CE, zie de recente draad op dit forum).

          • Examens en multilevel analyse
            Op mijn universiteit besteden we bij de 1e en 2e jaars colleges meer tijd aan tentamens dan aan onderwijs. Het nakijken van 200 tentamens kost de hoogleraar een week full-time (hier in Engeland mogen tentamens niet door doctoraal of doctoraat studenten nagekeken worden, dus de hoogleraar moet het allemaal zelf doen). Aan onderwijs geeft de hoogleraar zo een 30 uur gedurende het semester. Ook in de werkgroepen kost het nakijken van het huiswerk meer tijd dan het daadwerkelijk geven van die werkgroepen. Bij de effectiviteit van deze verhoudingen kun je vraagtekens zetten.

            Dan over eerlijkheid. Bij het nakijken van huiswerk geef ik per vraag 0,5 of 10 punten. Ik ga niet nadenken over of het nu 6 of 7 punten waard is. Iedere huiswerkset telt namelijk maar voor 2% voor het eindcijfer en het maakt dus amper uit of je 6 of 7 punten voor een vraag krijgt. Het komt voor dat een student een duidelijk beter antwoord geeft dan een ander en dat ze toch allebei 5 punten krijgen. Niet volledig eerlijk wellicht, maar wel een stuk effectiever met nakijken. En voor het eindcijfer zal het niets uitmaken.

            Ik ben het niet helemaal met je eens wat multi-level analyse betreft Ben. Zeker voor onderwijsonderzoek is dit belangrijk. Twee kinderen in dezelfde klas zijn duidelijk geen onafhankelijke variabelen (immers zelfde leraar et cetera) en je mag ze dan ook niet zo behandelen. Als je hele klassen als onafhankelijke variabelen gaat behandelen dan heb je meestal een veel te kleine steekproef om statistisch significante uitspraken te doen. Multi-level analyse is een mooi antwoord op dit dilemma. Het probleem met die onderzoekers die het niet uit kunnen leggen is denk ik dat zij het zelf niet snappen. Ze stoppen de data gewoon in SPSS en daar komt dan iets uit rollen. Snappen doen ze het zelf niet. Ik denk dat dit het probleem is: sociale wetenschappers zouden wat meer verstand van wiskunde moeten hebben.

          • Nakijken
            @mark79

            Tijd besteed aan het nakijken van tentamens is vaak verspilde tijd, omdat de feedback over het gemaakte werk niet meer aankomt bij de studenten (die zijn al lang weer met iets anders bezig). Dat nakijken is dus een enorm probleem, en overwegingen van eerlijkheid kunnen in de weg zitten om er alternatieven voor te ontwikkelen. Tijd verloren aan nakijkwerk, is tijd die gestolen is van de onderwijstijd. Goed thema.

            De tweede alinea gaat over eerlijkheid, zeg je. Ik zie dat het gaat over cijfergeven, dat is iets anders. Cijfergeven is een groot onderwerp (De Groot, Vijven en zessen). De functies ervan zijn mogelijk nogal anders dan betrokkenen zelf denken. Bijvoorbeeld: dat cijfergeven is een vorm van pseudo-objectivering, waardoor het mogelijk is om discussies met leerlingen en ouders te voorkomen. Cijfergeven is een beheersinstrument, naast natuurlijk zijn traditionele betekenis om de betere leerlingen te motiveren (ten koste van de slechtere, voor wie het juist demotiverend werkt). Ik simplificeer, maar hier komt het ongeveer op neer. Goed thema.

            Die multilevel-analyse moet zeker worden gedaan wanneer je over de gegevens van een groot leerlingencohort beschikt. Het is professioneel gereedschap, je moet het gebruiken, maar val er de mensen in je doelgroep of je opdrachtgevers niet mee lastig. De uitkomsten daarvan hebben een vertaalslag nodig, waarbij het handig is om eenvoudige bewerkingen uit te voeren, en grafische afbeeldingen te maken.
            In het concrete geval van onderzoek naar de discrepanties tussen SE en CE kan ik de resultaten van het GION moeilijk volgen, omdat ik er eerst mijn oude Raudenbusch bij zou moeten pakken. Geen goed thema, tenzij.

          • Niemand bepleit zinloze nakijktijd, maar zinvolle nakijktijd
            Ben, natuurlijk, nakijken mag niet teveel tijd kosten. Maar wat is het criterium voor ’teveel’?

            Ja, nakijken van examenwerk hoeft niet per se tot feedback te leiden. Maar verreweg het meeste nagekeken werk is geen examenwerk. En elk gegeven cijfer moet desgevraagd onderbouwd worden. Een tentamen wiskunde waar domweg een ‘6’ boven staat, kan voor een leerling nadelig zijn (loting geneeskunde). Als de leerling dat cijfer aanvecht, moet er toch een analytische beoordeling komen om te tonen dat het cijfer deugt.

            Misschien win je tijd door alle tentamens/examens dan maar globaal te beoordelen en alleen de aangevochten cijfers analytisch te legitimeren. Ik vraag me af of dat haalbare kaart is: er is juist vertrouwen in de gegeven examencijfers omdat de tentamens/examens vrijwel zonder uitzondering transparant worden beoordeeld (elke vraag afzonderlijk). Of de beoordelingswijze in de praktijk deugt, is aanvechtbaar. Maar dat zij het vertrouwen heeft, is op zichzelf ook een waarde. Vervalt dat vertrouwen, dan kun je rekenen op een stortvloed van aangevochten cijfers.

            Ons eindexamen dient niet alleen om zak/slaag-beslissingen te nemen; zij houdt ook een kwantificering van de uiteindelijke leerprestaties in. M.a.w. een leerling krijgt ook te weten voor welke vakken hij geslaagd is, en ‘voldoende’, ‘ruim voldoende’ of ‘goed’ etc. scoorde.

            Je kunt het afschaffen van die kwantificeringen bepleiten (geen cijfers meer maar alleen gezakt/geslaagd). Maar zolang we er in Nederland aan vasthouden, dienen de cijfers met de verschuldigde kwaliteit (validiteit) te worden toegekend.

            Ja, het is minder erg om op je diploma ten onrechte een 8 te krijgen (die een 9 moest zijn) dan ten onrechte een 5 (die een 6 moest zijn). Maar om zo veel mogelijk onterecht gegeven vijven en zessen te voorkomen, lijkt het me nodig dat de beoordelingsprocedure aan bepaalde kwaliteitseisen voldoet. Als beoordelaars daar tijd voor nodig hebben, so be it. We zijn dat onze leerlingen verschuldigd.

          • Aan de andere kant
            Dat gezegd hebbende, geef ik toe zelf ook aan den lijve te hebben ondervonden dat de vrucht van mijn nachtelijke nakijkarbeid – het zo zorgvuldig van deelscores, commentaar en cijfers tot op de komma voorziene leerlingwerk – eenmaal uitgereikt door de leerlingen slechts werd gebruikt om het vermelde cijfer (‘7’) in het rapport te noteren en daarna ongelezen en verfrommeld in de prullenbak terechtkwam.

            Er bestaat dus echt wel zoiets als zinloze nakijktijd.

            Met dat besef slaap ik een stuk geruster. En langer.

          • 2 heldere criteria
            Toch heb je altijd 2 heldere beoordelingscriteria: geen enkele fout is een 10 (of een 5, of een A). Over ‘geen fout’ hoeft niet getwist te worden.
            Het andere uiteinde is: veel te veel fouten, oftewel zwaar onvoldoende. Wordt wat subjectiever, maar die grens valt voor de ervaren leraar toch wel vast te stellen.
            Welnu, heb je die 2 punten eenmaal gevonden, kan daartussen een schaalverdeling worden gemaakt.

          • Leraren moeten de cijfers bepalen, niet de toevallige statistiek
            Dat ‘geen enkele fout’ een 10 wordt, daar zullen we elkaar snel in vinden.

            Maar er is geen reden om de 10 exclusief op te hangen aan ‘geen fout’. Als mijn dochtertje van 7 op een proefwerk differentiaalrekening van de acht opgaven er één goed heeft, vind ik dat ook al een 10 waard.

            Zonder gekkigheid, het valt prima te verdedigen om bij een 50-woordjesproefwerk een tien uit te loven voor de scores vanaf 45 goed. Een 10 is niets anders dan een predicaat ‘uitmuntende prestatie’. Wat iets anders is dan een feilloze prestatie.

            Ook de onderkant van het cijferen is niet zonder problemen. Waarom zou een leraar alleen een 1 uitreiken voor ‘0 goed’? Vijf goed van de 50 vind ik ook een ‘slechte’ prestatie. Zeker als het om een toets ging met 50 vierkeuzevragen, en alleen al de blinde gokkans de leerling op een score van ca. 12 goed brengt.

            Ook is helemaal niet gezegd dat de cesuur bepaald wordt door de twee uiterste scores. Er is helemaal geen lineair verloop verplicht tussen de 1 en de 10. De cesuur isde score die op zijn merites moet worden beoordeeld als ‘nog net voldoende’. Of dat bij het 50-woordjesproefwerk de score 20, 30 of 40 is, of iets daar tussenin, heeft niets te maken met het trekken van een lijn tussen de 1- en de 10-score en dan kijken waar de 5,5 zit.

            Het vaststellen van de cesuur is een principieel subjectieve zaak, die genomen moet worden met verstand van zaken en met oog voor de rest van het leertraject. Als eind vwo-4 de leerlingen in 20 eenvoudige spellingopgaven 12 fouten weten te maken, ga ik dat toch echt niet belonen met een ‘6’ omdat dat zo leuk 60% van de masimumscore is. Goddank mogen docenten strenger zijn dan misbruikte statistiek hun influistert.

          • contextafhankelijke normering
            Ach, ik zag zojuist Obama op TV die zijn “secret service” een zware onvoldoende gaf omdat er één fout was ontdekt bij het binnenlaten van misschien wel een paar miljoen passagiers die jaarlijks het land binnenkomen.
            Suarez wordt de hemel ingeprezen als “slechts” 5 van de 10 schoten op doel verkeerd uitpakken, terwijl de keeper die hij tegenover zich vindt met de grond wordt gelijkgemaakt als hij ook maar 1 echte fout maakt. Net als de scheidsrechter overigens en die laatste verdient nog het minste ook.

          • meer dan kritiek op een incident
            Engels verstaan is natuurlijk veel moeilijker dan Engels lezen maar mijn indruk was dat de kritiek geuit op CNN zich richtte op structurele tekortkomingen in het uitwisselen van gegevens tussen de verschillende veiligheidsdiensten.
            Seger Weehuizen

          • Tekortvak en salaris
            Het is niet vreemd dat we hier enige sympathie voor de scheidsrechter hebben.

            In het amateurvoetbal is er sprake van een scheidsrechterstekort. Ze zijn nooit te vinden en als je er eindelijk een hebt blijkt hij de regels vaak maar amper te kennen.
            Er is beslist geen sprake van een voetballerstekort. Er is ook geen sprake van een bestuurderstekort. Trainers zijn meestal ook wel snel gevonden.
            Hoe dat is met scheidsrechters in het beroepsvoetbal weet ik eigenlijk niet. Je mag toch hopen dat daar de markt zijn werk doet en dat de betaling van een scheidsrechter zodanig is dat er geen tekort is.
            De van elke prestatie losgezongen salarissen van voetballers worden niet bepaald door aantallen toeschouwers maar door sponsors, reclame en televisie; hypewerking dus.
            De markt, die het in onderwijsland helemaal laat afweten, blijft mij verbazen.

          • onbedoelde en bovendien onvolkomen markt
            Onderwijs is geen echte markt omdat nieuwkomers effectief geweerd kunnen worden en consumenten niet beschermd worden
            Seger Weehuizen

          • Die onderkant, die stel je
            Die onderkant, die stel je eerst vast. Als je 12 van de 20 fout, zwaar onvoldoende vindt, leg je daar je ondergrens, en verdeel je vervolgens tot de 10, die in mijn ogen altijd foutloos moet zijn. Uitgangspunten moeten helder zijn.
            Maar inderdaad kun je ook eerst het breekpunt vaststellen; dan stel je dat 12 fout een 4 geeft. Zo’n uitgangspunt te weten, is voor elke partij zinvol.

          • Een aanpak en een voorbeeld
            Ik leer mijn studenten (lerarenopleiding) dat ze eerst de cesuur (5,5) moeten vaststellen, en wel op inhoudelijke gronden, niet louter statistische.

            Vervolgens stellen ze de 10-score vast (die is vaak, maar niet per definitie, de foutloze score) en de 1-score (vaak, maar niet per se, de score die geen serieuze prestatie in zich bergt, zoals 10 of 11 goed op een toets die bestaat uit 40 vierkeuze-items).

            Vervolgens bepalen ze een lineair verband tussen de 1-score en de cesuur, en een ander lineair verband tussen de cesuur en de 10-score. Dat is voor deze leraren nog net te behappen en vermijdt gangbare idioterieën als “de cesuur ligt op 60% van de maximumscore” en “je mag maar 25% onvoldoendes hebben”.

            Een *mogelijk* voorbeeld uit een strenge 40-item-toets ‘spelvaardigheid’ eind 4-vwo:

            Reacties welkom.
            10 goed = 1,3
            11 goed = 1,5
            12 goed = 1,7



            29 goed = 5,1
            30 goed = 5,3
            31 goed = 5,5
            32 goed = 6,0
            33 goed = 6,5
            34 goed = 7,0



            39 goed = 9,5
            40 goed = 10.

            Aan de leerlingen is dat prima te communiceren als ‘boven de 5,5 geldt 0,5 punt per fout, daaronder geldt 0,2 punt per fout’.

            Nogmaals, de keuze van de cesuur is essentieel. Ook al vanuit de wetenschap dat de meeste leerlingen op of vlak boven de cesuur zullen scoren, en niet in de extreme waarden. Het is voor leraren en leerlingen van belang te weten welke norm er geldt voor de prestatie die-nog-net-door-de-beugel kan. En het is goed voor leraren om zich daar op te bezinnen, en de cesuurkeuze meester te worden: strenger noch soepeler dan nodig.

          • spellingsregels als werkverschaffing
            Het verbazingwekkende aan deze kraal is niet de strenge beoordeling bij een spellingstoets maar het feit dat men zich in 4 VWO met iets zo basaals als spelling bezig houdt. In mijn herinnering was het toelatinsexamen voor het Gymnasium de laatste toets waarbij nog spelling gevraagd werd. Maar misschien komt dat omdat men vroeger bastaardwoorden net zo schreef als in de taal van herkomst. Als je de verbuiging van de werkwoordsvormen van werkwoorden met een presensstam op d of t begrepen had hoefde je alleen nog maar te letten op ei of ij, ou of au, ouw of ou, auw of au en g of ch. Maar nu moet je weten dat je als een antiseptische skepter bedoelt je antiseptische scepter moet schrijven en dat je in synoniem in de eerste lettergreep voor de y Grèque moet schrijven en in de tweede ie. Bij ophaalbrug mag je de ph weer niet door f vervangen. Zo is er weer heel wat extra werk bedacht.
            Seger Weehuizen

          • Een corecte speling niet baggateliseren aub
            Malmaison: “Het verbazingwekkende aan deze kraal”

            Kraal?

            Je verbaast je over de keuze van een spellingtoets in 4-vwo, in een tijdperk waarin vwo-afgestudeerden aan de universiteit worden getoetst op hun reken- en taalvaardigheid. Mijn advies: verbaas je nergens meer over, dit behoort tot de raison d’être van BON.

            Toelatingsexamens voor gymnasia liggen al weer een tijdje achter ons. Een jaar of veertig meen ik. Er zijn inmiddels nabijere referentiekaders. Spelling is sedert lang integraal onderdeel van het schoolvak Nederlands op vo-niveau. Uit leerboekjes van voor 1968 maak ik op dat dit ook eerder het geval was. Blijkbaar beheersten ook rond 1960 niet alle Nederlandse vijftienjarige hbs-ers de gangbare spellingregels.

            Hoe dan ook, dat is nu nog minder het geval dan toen en daarom is het erg verstandig om leerlingen tussen 12 en 15 spellingonderwijs te geven. En het onderwijs dat je geeft, dient getoetst. Daarbij lijkt het me dienstig om op enig moment strenge normen te hanteren, opdat leerlingen weten dat ze er niet *altijd* van af komen met een beetje raak gokken.

            Lees de volgende zin twee keer hardop en verbeter hem daarna. “Maar nu moet je weten dat je als een antiseptische skepter bedoelt je antiseptische scepter moet schrijven en dat je in synoniem in de eerste lettergreep voor de y Grèque moet schrijven en in de tweede ie.”

            Dat leerlingen ‘antiseptisch’ moeten leren naast ‘sceptisch’ helpt om te begrijpen dat de woorden etymologisch niet verwant zijn. Net zomin als scepsis en een sepsis. Dat vind ik geen werkverschaffing.

            Spelling is geen spelletje. Formuleren is geen vormpje.

          • pudor, meus maximus pudor
            Ja, er zitten 2 constructiefouten in de zin. De laatste fout trad op tijdens het aanbrengen van een mutatie waarbij ik geïrriteerd werd door een plotselinge verandering van de manier waarop het toetsenbord door de computer afgelezen wordt. Maar, qui s’excuse s’accuse. De eerste fout is onvergefelijk.
            “Maar nu moet je weten
            XX dat je
            XX XX als een antiseptische skepter bedoelt
            XX antiseptische scepter moet schrijven
            XX en dat je in synoniem in de eerste lettergreep voor de upsilon y Grèque moet schrijven en in de tweede ie.”.
            Mijn eigendunk heeft een flinke knauw gehad toen ik moest vaststellen dat onvergefelijk met een f geschreven wordt. Omdat (naar ik nog steeds denk) dat woord afgeleid wordt van vergeven en de betwiste letter in beide gevallen gevolgd wordt door een stomme e ben ik er van uit gegaan dat beide woorden met een v geschreven worden. Het woord onvergeeflijk met dezelfde betekenis zou ik wel goed geschreven hebben. Volgens welke regel onvergefelijk met een f geschreven wordt is mij nog steeds duister
            Seger Weehuizen

          • Zo kan het ook
            Lang geleden was er een prof in Delft die zijn tentamens moderniseerde naar de nieuwste meerkeuze-vragen mode. Hij pakte een oud tentamen sterkteleer met vier opgaven die elk een lange berekening vergden. Onderaan de opgave stonden vier antwoorden waaruit kon worden gekozen. De mogelijke antwoorden verschilden van elkaar in de derde decimaal en om het goede antwoord te vinden moest je gewoon de hele opgave uitwerken; nog steeds één a twee velletjes rekenwerk. Ik was niet toetsslim genoeg om dat tentamen de eerste keer te halen.
            Sindsdien ben ik principieel tegenstander van alles wat bij de exacte vakken tot gis- en gokwerk kan leiden. Het gaat om de redenering die naar het antwoord leidt en niet alleen om het antwoord zelf.

        • Objectief en subjectief is geen dichotoom begrippenpaar
          Neem het beoordelen van schrijfproducten als voorbeeld. Daarover bestaat het een en ander aan onderzoek, aardig samengevat door Bert Meuffels in zijn niet meer verkrijgbare boekje “De verguisde beoordelaar”.

          Het beoordelen van schrijfproducten (opstellen, essays etc.) is notoir onbetrouwbaar. Zowel wat de intra-beoordelaarsovereenstemming betreft (beoordeelt leraar A een stapel opstellen volgende week nog net zo als hij die set deze week beoordeelt?) als de inter-beoordelaarsovereenstemming (beoordelen leraren A en B een set opstellen op vergelijkbare wijze?).

          Ik vind het wel degelijk onrechtvaardig als een leerling voor zijn schrijfprestatie de ene week een 5 krijgt en de andere week een 7. Of van de ene leraar een 5 en van de andere leraar een 7. Helemaal als we het hier over zak/slaag- of overgangsbeslissingen hebben.

          Er zijn diverse pogingen ondernomen om de validiteit (en als onderdeel daarvan de betrrouwbaarheid) van deze beoordelingen te verbeteren. Geen aanpak is ideaal, maar de ene aanpak is wel aantoonbaar beter dan de andere.

          Zo is jurybeoordeling – weinig verrassend – stabieler dan beoordeling door één persoon, mits de juryleden op vergelijkbare wijze hun taak opvatten.

          Zo levert schaalbeoordeling (vergelijken van een tekst met een vaste reeks teksten met opklimmend niveau) een stabielere beoordeling op, met een hogere intra- en interbeoordelaarsovereenstemming.

          Ook anonimisering en uittypen van de teksten, het in verschillende volgordes aanbieden aan beoordelaars, heldere instructies en een beperkt criteriumlijstje voor beoordelaars bleken in onderzoek een bijdrage te kunnen leveren.

          Het interessante is dat in de examenpraktijk vrijwel geen enkel van deze beoordelingsvoorschriften wordt aangehouden. Hooguit een of ander analytisch beoordelingsmodel (‘scoren’ van een tekst op een aantal vaste criteria) waarvan de waarde nimmer onderzocht is (soms vier, soms tien categorieën, met een min of meer willekeurige weging).

          • opstelbeoordeling
            @couzijn

            Meer beoordelaars van hetzelfde werk, en allerlei andere verbeteringen, leiden tot nog meer nakijktijd. A. D. de Groot heeft in zijn Methodologie een aardige opsomming van storende factoren gegeven (die op zich nog niets met inhouden hebben te maken)

            Als zittenblijven een mogelijke consequentie is, kijk dan eens of die didactische absurditeit met de vuilnisman is mee te geven.

            Het opstel in de eigen taal is notoir ‘subjectief’ in de beoordeling. Ik heb daar eigenlijk nooit aannemelijke verklaringen voor gezien, misschien omdat auteurs en onderzoekers meteen allerlei voorstellen ontwikkelen om tot ‘betrouwbaarder’ beoordeling te komen, en er zo niet aan toekomen om zich eens af te vragen wat het fenomeen inhoudelijk voor kan stellen. Dan vermoed ik dat het opstel niet is vast te pinnen op een kleine set van kwaliteitscriteria, derhalve hanteert iedere beoordelaar een persoonlijke set criteria en lopen daardoor de oordelen uiteen. Dan bedenkt een handige jongen dat je een setje criteria moet voorschrijven, en verdraaid, dan gaat het beter. Maar dan moet je onderwis geven in het schrijven van opstellen waarbij dat setje criteria oprationaliseert wat kwaliteit is. Dan kun je maar beter het schrijven van opstellen uit het programma schrappen.

            Niet wanhopig worden. Dat becijferen van opstellen is onzinnig. Zeker, je kunt jureren, maar om dat soort wedstrijd gaat het niet in het onderwijs. In plaats van cijfermatig te beoordelen, geef je inhoudelijke feedback op het schrijfproduct. Beschouw het als een practicum-achtige activiteit, een master-class als je wil. Een practicum hoef je niet met een toets of tentamen af te sluiten. Alweer A. D. de Groot moest overijverige toetsers eraan herinneren dat het behoorlijk meedoen in een practicum op zich prima is. Aftekenen, dus. Een Handelingsonderdeel noemde hij het. Tegenover de tentamens, waar een prestatie moet worden getoond.

            Etc.

          • Een goede oplossing zie ik nog niet
            Ook mij schijnt dat de beoordeling van een opstel in de moedertaal sterk afhankelijk is van de literaire smaak van de beoordelaar en soms van zijn intelligentie. Maar het maken van een opstel is wel een vaardigheid die een leerling, en zeker een VWO-leerling, behoort te beheersen. Je mag enkel uit het feit dat een leerling het practicum “Opstelschrijven´´ helemaal afgewerkt heeft niet concluderen dat hij die vaardigheid in voldoende mate beheerst. Hoe zou het dan wel moeten¿
            Seger Weehuizen

          • Practicum aftekenen
            Is ‘behoorlijk meedoen’ bij een practicum voldoende? Best mogelijk dat A.D. de Groot dat vindt, maar ondergetekende vindt dat een criterium van niks. Ik becijfer de meeste practica (natuurkunde) als waren het toetsen. Je zult toch moeten definiëren wat dat ‘behoorlijk meedoen’ dan is. Hebben de practicanten de vereiste metingen (zelf) uitgevoerd? Hebben ze die ook genoteerd? Is er een aanwijsbaar systeem in hun metingen? Is er rekening gehouden met meetnauwkeurigheid? Zijn de meetgegevens verwerkt in tabellen en grafieken? Hebben de leerlingen er enig idee van wat het experiment inhoudt? Trekken ze een conclusie die op hun experiment slaat? Er zijn per practicum wel twintig van dergelijke vragen die voor dat criterium ‘behoorlijk’ moeten worden beantwoord. Loop je die allemaal na, dan kan je net zo goed punten geven. Geef je punten, dan kan je er net zo goed een cijfer van maken.
            Een opstel aftekenen? Teken het dan gewoon af voordat ze eraan beginnen. Dan is iedereen blij. WIl je eisen stellen, dan is ‘meedoen’ niet voldoende, en van dat ‘behoorlijk’ zal je toch moeten aangeven wat je ermee bedoelt. Ik heb collega’s die vooraf hun beoordelingscriteria aangeven. Lijkt me heel netjes. Objectief krijg je het nooit, maar je kunt daar wel moeite voor doen.
            Met ingang van dit jaar wordt het profielwerkstuk becijferd in plaats van dat het een handelingsdeel is. Ik denk dat dat dezelfde achtergrond heeft. Persoonlijk hoop ik dat de examenkandidaten het om die reden serieuzer nemen.

          • Even terug naar het onderwerp.
            1. voorspellende waarde van de Cito Eindtoets
            2. zogenaamd objectieve versus subjectieve toetsvragen
            3. eerlijkheid van de toets
            4. kosten/baten van en en ander

            Eerlijkheid zoeken bij het nakijken van opstellen en uitvoerige schriftelijke tentamens verenigt de die laatste drie onderwerpen. Is dit kluwen te ontwarren? Zijn er gewoonten die onnodig kostbaar zijn (in tijd van leraren, in tijd van leerlingen, in kwaliteit van onderwijs)?

            Bezwaren bedenken kan iedereen.

          • problematiseren, masterclass
            Het gaat m.a.w. niet om oplossingen, maar om de vraag of hier een probleem ligt waar we geen goed zicht op hebben.

            Mijn overweging bij allerlei gedoe over examens, toetsen, cijfergeven is ook de volgende:

            – neem het professionele oordeel van de leraar serieus
            – laat de leraar zijn professionele oordeel serieus nemen

            Dat professionele oordeel is natuurlijk niet een oordeel in termen van cijfers, voldoende/onvoldoende, e.d., integendeel. Dat oordeel betreft wat de leerling presteert, wat zij straks kan presteren, en hoe je daar komt. Enzovoort. Een ideaalmodel is het masterclass model. De leerling moet er verder mee komen.

            Als bureaucratische beoordeling, ook die met de beste bedoelingen zoals eerlijkheid, ten koste gaat van die professionele beoordeling, dan is dat een probleem. Als er van die professionele beoordeling weinig overblijft omdat er geen tijd meer voor is, of omdat hij als mosterd na de maaltijd komt (nakijken uitvoerige schriftelijke afsluitende tentamens), dan is dat een ernstig probleem. Dan vliegen de kosten de pan uit, en verdampen de baten.

          • Mosterd na de maaltijd?
            Het cijfer op een afsluitend tentamen is heel belangrijk voor de toekomst van een leerling/student. Dat moet je dus zorgvuldig nakijken. Geen mosterd na de maaltijd dus.

          • verschillende zaken uit elkaar houden
            &mark79

            Dat is voortdurend het probleem: de consequenties die cijfers kunnen hebben, versus wat het geven van onderwijs nodig heeft. Ik probeer juist die twee uit elkaar te halen. Of te contrasteren, net zoals je het wilt noemen. Het streven om zorgvuldig te zijn waar het om dat cijfergeven gaat, heeft niet met onderwijs te maken, en kan dus leiden tot toestanden die afbreuk doen aan de kwaliteit van het onderwijs.

            Ook dit heeft natuurlijk weer meerdere lagen. Het stellen van stevige eisen is nodig, maar dat hoeft niet noodzakelijk neer te slaan in ‘streng cijferen,’ liever niet zou ik zeggen, maar in stevig onderwijs.

            Als duizend studenten die het vak algemene taalwetenschap moeten doen, daar alleen massacollege’s voor krijgen, ja, dan telt alleen dat tentamen. Investeer dan de nodige tijd in het ontwikkelen van keuzevragen, verdomd goede keuzevragen, in een behoorlijk aantal. In dit soort situatie stuur je dus ook met zo’n tentamen de inspannngen van de studenten.

          • Serieus nemen
            Verbetert u mij als ik het fout heb, maar Ik beluister bij de heer Wilbrink steeds de neiging om een toets als een soort aanmoediging te beschouwen en een weerzin om een toets te beschouwen als een meetinstrument ter bepaling van iemands feitelijke kennis en vaardigheden.
            Tegelijkertijd neemt u wel termen als professionele beoordeling en bureaucratische beoordeling in de mond waarvan je maar moet afwachten wat iemand er mee bedoelt. Ook zinnen als ‘neem het professionele oordeel van de leraar serieus’ betekenen op die manier nog helemaal niets. Docent A geeft een 7, plus een heel verhaal erbij, omdat hij vindt dat de leerling wellicht, met opvolging van zijn wenken, in de toekomst wel een voldoende zou kunnen halen. Docent B geeft een 3 omdat hij geconstateerd heeft dat de leerling vrijwel geen enkele van de door hem vereiste vaardigheden beheerst.
            En nu roept u dat we zowel A als B in hun professionele oordeel serieus moeten nemen.
            Het verschil zit hem in de opvatting over wat een toets eigenlijk is. Het lijkt me dus beter dat iedereen het er eerst over eens is waarom we toetsen afnemen. Godzijdank werk ik op een school waar dat geen punt van discussie is. Zonder dat heb ik al sores genoeg.

          • Anders gezegd
            Schaf het cijfer af, alsook de toets en leve de willekeur maar we noemen het de professionaliteit van de onbevoegde coach.

          • Ben
            Theorie en realiteit zijn in het onderwijs twee zaken die mijlenver van elkaar staan. Wat ben ik met een theoretische verhandeling over toetsen en cijfers, een discussie die trouwens in de jaren zeventig, tachtig, negentig van vorige eeuw dagelijks werd beoefend door onderwijskundigen die heel ver verwijderd waren van het primaire proces en zodanig ook geen enkele invloed op het proces hadden. Tot ze, dank zij politieke invloed, hun theorietjes onder de titel ‘het onderwijs moet anders, om ons op de toekomst voor te bereiden, zonder enige vorm van empirisch onderzoek konden en mochten implementeren in het onderwijs. Dankbaar hebben de bestuurders hiervan gebruik gemaakt, woorden van de ‘deskundigen’ naapend om een kaalslag onder onderwijsgevenden te bewerkstelligen, omdat dat goedkoper was, en beter voor de toekomst van onze jeugd. De realiteit is dat in het MBO en HBO jarenlang onder de noemer ‘CGO’ onze jeugd overgeleverd aan de willekeur van on- en onderbevoegden een of geen diploma hebben verworven. In het VO is dank zij diezelfde willekeur bij toetsen en toetsopmaak het verschil in cijfers tussen CE en SO alsmaar groter geworden. Excuseer het woord maar ik ben ondertussen de kaap van ‘een goede discussie’ reeds voorbij vooral wanneer de discussie gevoerd moet worden op basis ongeschreven regels en niet getuigt van enige realiteitszin.

          • Open Forum
            Dit is een open – zij het gemodereerd – Forum, dus eenieder mag aan deze discussie deelnemen, niemand wordt gedwongen. Dat betekent wel dat men het in een discussie verregaand (on)eens kan zijn.

  6. Voortzetting in nieuwe draad
    Beste mensen,

    Het onderwerp van deze draad, de mate waarin leerlingen die toetsslimmer opereren dan anderen een voordeeltje kunnen halen op de Cito Eindtoets Basisonderwijs, was eerder al afgesloten.

    HendrikusH legde een nieuw thema neer, waarop een wisseling van informatie volgde die daar verdere verdieping aan gaf. Het is niet echt handig om deze toch wat complexe toetskwesties verder te behandelen als staartje achter het eigenlijke onderwerp van deze draad. Het ongelukje aan het eind dat me abrupt deed besluiten met deze draad te stoppen, volgt ook wel een beetje uit het kluwen-karakter dat de discussie met de laatste bijdragen kreeg: reactie-op-reactie-op-reactie zonder de lijn van de draad vast te houden. Daarom mijn vraag:

    In het bovenstaande zijn meerdere thema’s aangeduid, o.a.: kosten/baten, objectiviteit/subjectiviteit, eerlijkheid van beoordelen, cijfergeven. Het houdt allemaal met elkaar verband, maar alles tegelijk behandelen is vragen om problemen. Wie belangstelling heeft voor een specifiek onderwerp nodig ik uit er een nieuwe draad op te openen. Ik kan het zelf doen, maar dan neem ik er iets meer tijd voor.

    Laten we het spannend houden door kennis uit wetenschappelijk onderzoek af te zetten tegen ervaringen op de werkvloer, maar wees erop voorbereid dat die twee vaker niet, dan wel, met elkaar in overeenstemming lijken. Wetenschappelijk onderzoek dat de moeite waard is, is immers meestal niet bevestigend voor de status quo. Het vanzelfsprekende wordt niet onderzocht, hoewel dat soms toch wel heel verstandig kan zijn (geschiedenis van het onderwijs is zo’n onderwerp dat saai lijkt maar vaak verrassingen oplevert).

    Goede jaarwisseling,

    Ben Wilbrink.

    • Inzake onderzoek
      Wetenschappelijk onderzoek dat de moeite waard is, is immers meestal niet bevestigend voor de status quo.
      Best mogelijk. Maar wetenschappelijk onderzoek moet het hebben van zijn resultaten en zijn argumenten, en niet van het verstoren van de status quo. Dat is alleen maar een bijverschijnsel. Die fout wordt nogal eens gemaakt door would-be Einsteins: ‘Kritiek? Aha, de gevestigde orde voelt zich door mij bedreigd!’.
      Het vanzelfsprekende wordt niet onderzocht hoewel dat heel verstandig kan zijn. Er wordt van alles onderzocht, ook veel ‘vanzelfsprekende’ dingen. De kritiek op de sociale vakken is niet dat er triviale zaken worden onderzocht, maar dat de onderzoeksresultaten zo triviaal zijn. Het is teleurstellend als een onderzoek naar pijn leidt tot conclusies als ”een pijn-ervaring kan het gevolg zijn van het toedienen van een klap”.

    • Beste Ben,
      Dank voor de tijd

      Beste Ben,

      Dank voor de tijd en moeite die je in de afgelopen tijd in het forum investeerde. Die is niet verloren gegaan.

      Een jaarwisseling is een afsluiting en een ‘doorstart’ (in modieuze termen); leren van het verleden en doorgaan in het heden. Ik leer steeds maar dat afwijkende meningen werken als een slijpsteen voor de mijne, zonder welke mijn meningen dus minder scherp zouden zijn. Dank voor de slijpsteen-functie.

      Hopelijk wil je daar in het nieuwe jaar mee doorgaan.

      Pas op met gillende keukenmeiden en al te vette oliebollen, ook in figuurlijk opzicht,

      Michel Couzijn

Reacties zijn gesloten.