Header / Cover Image for 'Over eindexamens'
Header / Cover Image for 'Over eindexamens'

Over eindexamens

Ik ben gelukkig al enkele jaren van de middelbare school af. Toch raak ik nog gefrustreerd als jaarlijks tientallen artikelen voorbijkomen over de misstanden rond de eindexamens. Ik hoorde van familieleden boven mij dat het een ramp was, ervoer zelf dat het een ramp was, en lees nu nog steeds dat het een ramp is. En dat vind ik verschrikkelijk.

Maar, je bent al jaren van school, waarom vind je dat nu verschrikkelijk? Toen ik er middenin zat probeerde ik koste wat kost de eindexamens te halen. Ik dacht niet na over hoe het in elkaar stak. Ik deed het kunstje dat school mij had geleerd, en voilà, ineens blijk je genoeg kennis te hebben voor een diploma. Ik had ook helemaal geen tijd of energie om met het gebroken onderwijssysteem bezig te zijn.

Maar nu ik ouder ben zie ik wat het allemaal wel niet kapot heeft gemaakt. Nu zie ik hoeveel verspilde tijd en energie het was, en hoeveel beter het had kunnen zijn. Ik wil dat komende generaties niet meer hoeven te lijden onder mislukte eindexamens, en daarom schrijf ik dit.

Ten eerste …

Eindexamens zijn in de kern al, om het zacht uit te drukken, onhandig. Je hebt jarenlang op school je best gedaan voor van alles en nog wat, en om de een of andere reden is dat maar 50% van je punt. Die andere 50% is het resultaat van 3 uur in een sporthal vragen maken. Vragen die toevallig dit jaar, voor dit vak, op deze wijze en met deze puntentelling, door de CvTE (College voor Toetsing en Examens) zijn uitgekozen.

Vergelijk het met het volgende. Je zit al sinds je zevende op voetbal. Je hebt jarenlang hard getraind, alle wedstrijden meegespeeld, en je bent een van de beste uit de omgeving. De coach heeft het gezien en heeft zelfs Jong Ajax geïnteresseerd gekregen. Alles wijst erop dat je door gaat stoten naar de top. Je traint nog harder, laat nog meer geweldige dingen zien, en iedereen is onder de indruk.

Maar, zo zegt de manager van Jong Ajax, voordat je wordt aangenomen moet je één laatste test doen. Je moet vanuit tien verschillende posities op doel schieten, terwijl in het doel ook nog een goede keeper staat. Hoe hard je ook je best doet, zes van de schoten worden tegengehouden, en … dat was het dan voor jou. Iedereen zegt dat je geen goede voetballer bent, en je moet nog een jaar wachten voordat je überhaupt de kans krijgt om jezelf weer te “bewijzen”.

(Je kunt de vergelijking nog preciezer maken. Niet alleen zijn drie van de tien posities haast onmogelijk om vanuit te scoren, halverwege je vierde poging verplaatsen ze ook nog eens het doel. Als je aan je vijfde poging begint hebben ze de voetbal vervangen voor een basketbal, want dat moet je natuurlijk óók kunnen. Bij je zesde poging raak je het doel, maar vertellen ze achteraf dat het juist de bedoeling was dat je precies tegen de lat schoot. Jij zegt dat je dat nooit hebt geleerd, zij zeggen jawel. Bij je zevende poging raak je eindelijk het doel, maar zij zeggen dat ze liever een ander soort schot hadden gezien, dus je krijgt maar de helft van de punten. En dan gaat een zoemer af en blijkt dat je tijd op is, waardoor je de andere schoten niet eens meer mag proberen.)

Het eindexamen is een momentopname, en niet eens eentje die representatief is. Als het aan mij lag zou ik de eindexamens helemaal afschaffen. Maar goed, dat zie ik niet in de nabije toekomst gebeuren. Daarom lijkt het mij verstandiger om te bekijken hoe de examens nu gaan, en wat daar precies verkeerd aan is.

Wat is het doel van examens?

Het originele doel van examens is: eerlijk testen of scholieren voldoende kennis bevatten om succesvol door te kunnen naar de grote-mensen-wereld.

Laten we eens kijken of de huidige examens dit doel volbrengen. (In de rest van dit artikel leg ik per vraag uitgebreid mijn antwoorden uit.)

  • Behandelt het kennis die scholieren nodig hebben in de rest van hun leven? Ja en nee.
  • Test het deze kennis ook daadwerkelijk? Nee.
  • _Test het deze kennis op eerlijke wijze? _Dat valt zeker te betwisten.

Hieruit concludeer ik dat de huidige examens het doel niet volbrengen.

Opmerking: mocht het nodig zijn, hierbij een persoonlijke anekdote. Ik had er in de zesde klas geen zin meer in. Ik had vijf jaar lang mijn best gedaan zonder dat ik er nou echt iets voor terug kreeg, en ik ging het niet nog een jaar doen. Toen de eindexamens eraan kwamen, ging ik niet naar de vele “examen-workshops”, ik kocht geen examenbundel, ik deed helemaal niks. Ik was bereid mijn lot te accepteren en te blijven zitten.

Terwijl ik de examens maakte voelde ik me als een spion die zich door de beveiliging van de aartsvijand probeerde te bluffen en trukeren. (Blijkbaar is het trukeren, niet truuken, of truucen, of elke andere vorm die ik probeerde.)

Maar wat denk je? Ik haalde het, met soms zelfs verrassend goede punten. Dat komt niet omdat ik slim ben. Het komt zeker niet door mijn geheugen, want die is belabberd en lijkt wel altijd dronken. Het komt omdat de eindexamens niet deugen.

Dit artikel is dan ook geen aanklacht van “oh maak het allemaal makkelijker, want scholieren hebben het al zo zwaar, en het was zo warm in de sporthal, en er zoemde steeds een vlieg langs mijn oor, en alle vragen waren oneerlijk, en mijn buurman neuriede héééél zachtjes dat catchy nummer van Katy Perry, en het lettertype stond me niet aan, en mijn pen had ineens drie keer zoveel wrijving, AAAAAH”.

(Dit is hoe veel mensen denken over de eindexamenklagers.)

Ik ben voor examens die eerlijker en zinvoller zijn, wat in sommige aspecten juist veel meer van de scholieren gaat verwachten.

Test het benodigde kennis?

Mijn antwoord is “ja en nee”.

_Waarom ja? _Bij een examen Nederlands wordt bijvoorbeeld lees- en schrijfvaardigheid getest, wat vrij essentieel is als je in Nederland woont. Een wiskunde examen kun je alleen halen als je kunt hoofdrekenen, de basisprincipes van wiskunde begrijpt, en logisch kunt denken. Dat zijn ook essentiële dingen. (Al is het maar om te zorgen dat je niet voor de gek gehouden wordt als je geld terugkrijgt bij de kassa.)

Een wereld waarin volwassenen niet logisch en helder denken, of niet fatsoenlijk communiceren, lijkt me geen goed idee. Ik ben dan ook niet tegen alles in het onderwijs, of tegen _alle _schriftelijke toetsen. Het is zelfs de reden dat eindexamens nog steeds gaan zoals ze gaan: ze doen echt wel een aantal belangrijke, goede zaken. Iemand die geen zin heeft om grammatica en spelling juist te hanteren, valt snel door de mand als deze een tekst moet samenvatten.

_Waarom nee? _Je hebt bijvoorbeeld ook examens die testen of iemand kan uitrekenen hoeveel mol in een bepaalde reactievergelijking wordt omgezet, of wat de afgeleide is van een of andere enorm complexe functie. Het grootste deel van de mensen gaat deze kennis nooit nodig hebben, en als je het wel nodig hebt, wordt al deze stof herhaald als je naar het hogere onderwijs gaat. (Of het is op te zoeken.)

Ik heb liever dat men op de middelbare school leert over belastingen, geldzaken regelen, EHBO, hoe je gezond blijft, hoe te handelen in noodsituaties, hoe je een goed en aardig mens bent, en veel meer (praktische) dingen die horen bij ieders leven.

Als je “eindexamens” verplicht, en zeker als je ze zo belangrijk maakt, doe dan ook enkele examens over o.a. bovenstaande onderwerpen. Test dan ook of iemand écht klaar is voor de volgende stap. Antwoorden invullen en punten scoren op toetsen kon iedereen al op de basisschool; de echt belangrijke dingen leer je jammer genoeg nog nergens.

Opmerking! Eigenlijk komt alle kritiek op dit gebied samen in één woord: prioriteit. Eindexamens geven een hogere prioriteit aan feitjes en irrelevante theorie, dan aan het praktische en het relevante. Bovendien geven ze dezelfde prioriteit aan alle verschillende facetten die ze behandelen. Iemand kan een voldoende halen voor een Nederlands examen zonder goed te zijn in lezen of schrijven, dankzij de wonderen van _compenseren. _Blijkbaar maakt het niet uit als je Nederlands niet goed beheerst, zolang je maar de vele vragen over alineafuncties en wat de auteur bedoelde met een stuk tekst goed genoeg beantwoord.

Dit leidt naar ons volgende onderwerp …

Test het deze kennis ook daadwerkelijk?

Het antwoord hier is: nee.

De vragen

Het begint al bij het overschot aan meerkeuzevragen. Waar slaat dat op? Op welk moment in iemands leven moet diegene een keuze maken, en krijgt hij daarvoor precies vier opties waarvan er maar eentje waar is? “Janine! Ons bedrijf is bijna failliet. Wat moeten we doen? Is het A) opgeven, B) extra geld lenen, C) doen alsof er niks aan de hand is, D) een nieuwe weg inslaan, of E) een hond aanschaffen?”

Leraren zijn alleen maar bezig met leerlingen bijbrengen wat de juiste “strategie” is voor een examen. Hoe je bijvoorbeeld foute antwoorden moet wegstrepen bij meerkeuze, in plaats van simpelweg direct de juiste kiezen. Waar slaat dat op? Wie dacht dat dit een goed idee was? De meeste meerkeuzevragen zijn daardoor goed te beantwoorden zonder dat je daadwerkelijk het antwoord kent of snapt. (Sterker nog, ze hebben de neiging om er strikvragen van te maken, waardoor de kans dat je zo’n vraag juist hebt kleiner wordt naarmate je meer hebt geleerd.)

Dan door naar de grote hoeveelheid halfopen vragen. Deze vragen leggen je zoveel restricties op, dat het praktisch een meerkeuzevraag wordt, gecombineerd met een oefening in gokken. Denk aan iets van de vorm: “In alinea 3 praat de auteur over bosbessen en hun mythologische achtergrond. Vat in hoogstens 15 woorden samen wat hij zegt.” Deze vraag geeft al drie dingen weg: waar je exact het stukje kunt vinden waar de vraag op slaat, waar deze in het algemeen over gaat, en dat je het kunt vertellen in 15 woorden.

Tegelijkertijd, omdat je maar 15 woorden hebt, wordt in het correctiemodel gebruik gemaakt van de “staat dit woord erin of niet”-bingo. Ongeacht hoe goed je samenvatting is, ongeacht hoe goed je de tekst begrijpt, als je niet in 15 woorden precies de juiste vakjes aanvinkt heb je het duidelijk niet begrepen.

En als laatste de zeldzame open vragen. Afgaande op het vorige zou je denken dat ik daar een fan van ben, maar nee. Vaak zijn deze vragen óf teveel óf te weinig punten waard. Aan de ene kant zie je een vraag als “leg de filosofie van Kant uit met betrekking tot X, Y, en Z?” voor een magere 1 punt. Aan de andere kant heb je een vraag als “bereken deze hele moeilijke som” voor 15 punten, maar als je ergens een tussenstap per ongeluk mist/overslaat, of een rekenfout maakt, is de kans groot dat je minstens 10 van die punten mist.

Opmerking: dit is ook frustrerend aan de universiteit, want daar hebben ze het nog steeds niet geleerd. Dan heeft een opgave acht deelvragen die allemaal op elkaar door bouwen, en als je een van de eerste deelvragen fout hebt, weet je al: dit vak haal ik niet. Zo heb ik twee keer een vaak niet gehaald waarvoor ik zeker wist dat ik genoeg had geleerd. (Ik had er namelijk zeker 10 à 20 keer meer tijd ingestoken dan elk ander vak, juist omdat ik wist van de rare tentamenstijl :p)

De onderwerpen

Ik geef het woord aan dit stuk over de validiteit van het Duits examen: https://didactiefonline.nl/artikel/hoe-valide-is-het-eindexamen-duits

Voor degene die het stuk niet willen lezen, zal ik het samenvatten.

Examenmakers moeten een examen te maken dat aansluit op wat de leerlingen hebben geleerd. Het is hun doel om te toetsen of leerlingen kunnen wat school hen heeft bijgebracht. Het liefst zo volledig en eerlijk mogelijk. Je wilt niet dat een examen 50% van de vragen besteed aan slechts 10% van de leerstof. (Of, andersom, dat één vraag probeert om meteen 80% van de stof te gebruiken in al z’n tussenstappen.)

Wat gebeurt er? Exact dat. In het stuk hierboven wijst de auteur aan dat er een gigantisch verschil was tussen de vereiste kennis (en dan vooral woordenschat) tussen de laatste 20 Duits examens. In zekere zin is het dus een hit or miss: ofwel je kent toevallig precies het juiste stukje van de stof (en haalt een onredelijk hoog punt), ofwel je kent niet toevallig dat stukje (en haalt een onredelijk laag punt).

Waarom is dit het geval? Wie heeft dit bedacht? Ik denk dat iedereen het erover eens is dat je zo evenredig mogelijk uit alle tentamenstof zou moeten pakken. Bovendien, als je ervoor kiest om landelijke examens te hebben, moet heel duidelijk zijn wat scholen daarvoor aan moeten bieden aan hun leerlingen. Nu zou een school héél goed les kunnen geven over een paar onderwerpen, terwijl de landelijke examencommissie ze niet eens overweegt voor een examen.

Voorbeeld: in mijn jaar weet ik nog dat ik met hele gemixte gevoelens terugkwam van het Natuurkunde examen. Ze vroegen namelijk in drie vragen ongeveer hetzelfde, en dat vond ik enerzijds raar, en anderzijds vervelend omdat ik precies dat deel nooit helemaal had begrepen. Als gevolg had ik ook een ver beneden gemiddeld cijfer voor dat examen. Ik snap niet hoe dit gebeurt. Het lijkt me niet moeilijk om elke vraag in een examen over een ander deel van de stof te laten gaan. Het is geen rocket science om alle onderwerpen evenveel aan bod te laten komen.

Test het deze kennis op eerlijke wijze?

Het antwoord hier is: nee, maar het is complexer dan je denkt.

De normering

Op deze pagina legt de CvTE haar hele normeringsstelsel uit: https://www.toetsspecials.nl/html/normering/default.shtm

Ik heb overal doorheen geworsteld, met gepaste frustratie over de onduidelijke schrijfstijl (en rare praktijken).

De normering is, zoals de meesten weten, hoe iemands antwoorden op een toets worden omgezet in een representatief punt. De formule hiervoor is simpel:

Cijfer = (aantal punten behaalt op de toets) / (totaal aantal punten) * 9 + N-term

Och ja, de beruchte N-term. Ik vroeg me op de middelbare school altijd af waar het in vredesnaam voor stond, en dacht dat het de “en-term” was (want je kreeg er iets bij), maar nu weet ik het: normeringsterm.

Referentie-examens

Hoe bepaalt de CvTE wat een goede normering is? Door het te vergelijken met een referentie-examen van vroeger. Het doel is om de moeilijkheidsgraad van tentamens elk jaar exact hetzelfde te houden.

Om de “equivaleringsprocedure” te citeren:

Bij het equivaleren van examens gaat het erom op het nieuwe examen de score aan te wijzen die vergelijkbaar is met de score die op het referentie-examen de laagste voldoende opleverde (=5,5).

Oftewel: ze kijken welk puntenaantal vergelijkbaar is met het puntenaantal dat op het referentie-examen een 5,5 opleverde. Vervolgens passen ze de normering aan om dit puntenaantal tot een 5,5 te maken. (Overigens noemen ze veel uitzonderingen en andere methodes, maar de zin hierboven is de kern van het verhaal.)

Het is belangrijk hier op te merken dat het puntenaantal niet veranderd wordt. De N-term is specifiek bedoeld om een examen te “equivaleren” met die van de vorige jaren. (Een te moeilijk examen krijgt een hoge N-term, een te makkelijk examen een lage N-term.)

Zo’n referentie-examen wordt er niet later bij gezocht. Het werkt juist andersom! Ze kijken naar de inhoud van een oud examen en maken een nieuw examen met dezelfde inhoud en verdeling. Dat blijkt uit het volgende stuk:

Een voorwaarde voor equivalering is dat de examens inhoudelijk gelijkwaardig zijn. Daarmee bedoelen we dat de beide examens

betrekking hebben op dezelfde leerstof (examenprogramma) en inhoudelijk uitwisselbaar zijn. Dat bereiken we door de beide examens te ontwikkelen volgens eenzelfde toetsmatrijs. De examens hebben dan een vergelijkbare verdeling van vragen (en scorepunten) over de onderscheiden onderdelen uit de leerstof.

Op zich klinkt dit goed, hoewel het wel mijn kritiek bevestigd: examens hebben dus geen gelijke, representatieve inclusie van de tentamenstof. Onderwerpen komen in een soort “golven” eens in de zoveel tijd weer heel veel aan bod in een examen, en daarna weer wat minder.

Het tweede minpunt is dat de moeilijkheid van examens dus altijd gebaseerd wordt op vorige examens. Men houdt geen rekening met dat onderwijs kan veranderen. Dat leerlingen kunnen verbeteren.

Het derde minpunt dat daaruit voortvloeit is natuurlijk dat die oude referentie-examens ook best fouten kunnen bevatten of niet representatief kunnen zijn. Die oude examens kunnen gebaseerd zijn op iets verkeerds, en dat wordt nu jaar na jaar doorgegeven. (Ik zal hier in de volgende sectie—de cito conspiracy—over doorpraten.)

Pretest en Posttest

Er bestaat ook zoiets als de pretest en de posttest.

  • Bij de eerste wordt doorgaans van tevoren een examen van een beta-vak aan een “geschikte populatie” voorgelegd, en daaruit een idee voor de N-term gehaald.
  • Bij de tweede wordt doorgaans een examen van een taal naderhand aan de “geschikte populatie” voorgelegd, voor een schatting van de N-term.

Hierbij wordt geschikte populatie niet duidelijk gedefinieerd, maar het lijkt erop alsof dat mensen zijn van hetzelfde niveau als voor wie het examen bestemd is. (Bijvoorbeeld: VWO 3 is geschikt voor een VMBO-TL examen.)

Dit vind ik natuurlijk een goed idee. Uit deze tests halen ze hoe “moeilijk” een opgave is (door te kijken hoeveel het gemiddeld goed hadden), zodat ze weten hoeveel van iemands punt ligt aan diens vaardigheid, en hoeveel aan de moeilijkheidsgraad van het tentamen.

Ze zouden dit veel meer moeten doen en er ook meer waarde aan moeten hechten. In dit stadium kunnen ook het beste fouten uit het examen gehaald worden, of correctiemodellen aangepast/verbeterd. Maar goed, zoals we dadelijk zien, weet het CvTE dit toch weer te misbruiken.

Opmerking: Overigens, hoe meer ik lees, hoe meer ik verdwaal in hun onduidelijke taalgebruik. Het lijkt erop dat ze deze pretest en posttest als hoofdmiddel gebruiken, en het referentie-examen vooral in uitzonderlijke gevallen. (Denk hierbij aan wanneer te weinig leerlingen een vak volgen, of ze simpelweg geen test hebben gedaan voor dat examen.) Dit hele artikel was veel makkelijker geweest als ze hun specifieke statistische model en formules helemaal hadden prijsgegeven. Alas, nog maar een minpuntje dan: gebrek aan transparantie :p

Opmerking: in de officiële data staat grappig genoeg een onderscheid in p-waarde tussen jongens en meisjes. Ik heb geen idee waarom ze dat onderscheid bijhouden en erbij zetten. Wel laat het zien dat jongens enkele procentpunten hoger scoren bij bèta-vakken, en meisjes enkele procentpunten bij talen en creatieve vakken. Grappig genoeg is de p-waarde uitgerekend bij wiskunde B exact gelijk. Maar dat is niet relevant voor dit betoog, so let’s move on!

De Cito Conspiracy

Hoe is ooit de normering voor die referentie-examens vastgesteld? Ze moeten ooit begonnen zijn met een bepaald idee van wat een “juiste” verdeling is van cijfers. Dit noem ik: de cito conspiracy. Niet omdat ik echt denk dat het een complottheorie is, natuurlijk, maar omdat het een alliteratie is (en makkelijk te onthouden).

Het idee is als volgt: de scores die leerlingen behalen zullen normaal verdeeld zijn. (Voor de niet-ingewijden: zoek een plaatje van een normale verdeling, of een Gaussian curve.) Heel veel leerlingen zullen “gemiddeld” presteren, en ongeveer hetzelfde cijfer halen, terwijl er enkele uitschieters naar boven (ruime voldoende) en onder (ruime onvoldoende) zijn. Dit idee is goed. Heel veel in het leven is normaal verdeeld, en het is redelijk om aan te nemen dat het voor cijfers ook geldt.

Het enige probleem is: waar leg je het gemiddelde? Wat willen we dat leerlingen “gemiddeld” presteren? Welk cijfer krijgt een “gemiddelde” leerling?

Het antwoord: een zesje. Als je kijkt naar de gemiddelde cijfers van eindexamens de afgelopen jaren, liggen ze vrijwel allemaal (afgezien van enkele rare uitzonderingen) tussen de 6 en de 7. (Zo was het gemiddelde voor wiskunde B vorig jaar een 7,2. Maar, in de data stond ook dat het een grote standaardafwijking had, dus sommige hadden een 2 en sommige een 10.)

Het gemiddelde percentage onvoldoendes ligt doorgaans tussen de 10 en de 20, hoewel meer richting de 20. Inclusief uitzonderingen: vorig jaar hadden Frans en Duits beide zo’n 27 procent onvoldoendes.

Beide vakken hadden een bijzonder lage N-term van 0,5. Gebaseerd op hun posttest en zo’n referentie-examen, hadden ze blijkbaar besloten dat dit de N-term moest zijn, zelfs als bijna 1/3 van de leerlingen daardoor een onvoldoende haalden. (De standaardafwijking was klein, en het gemiddelde cijfer een 6,1, dus heel veel leerlingen zullen nét een onvoldoende hebben gehaald. Ook essentieel om op te merken, is dat de N-term bij Frans eerst zelfs 0,3 was. Maar toen één van de vragen een tweede juiste antwoord goed gerekend kreeg, werd deze 0,2 punt erbij geteld.)

Het CvTE heeft de macht om, met veranderingen in de N-term, hele groepen leerlingen ineens aan een onvoldoende (of juist voldoende) te helpen. Hoewel de N-term hoogstens tussen de 0,0 en 2,0 mag zitten, heeft hij een gigantische invloed, terwijl er in mijn ogen door het CvTE verkeerd (of in ieder geval te laks) mee om wordt gegaan.

Hoezo verkeerd? Ten eerste: er wordt tussentijds afgerond in de vele berekeningen die plaatsvinden. Examenmakers zouden toch moeten weten dat dat niet mag :p Als je op één tiende kan slagen of zakken, mogen ze wel met meer cijfers achter de komma gaan werken.

Ten tweede: Het CvTE heeft de insteek dat “niet teveel leerlingen mogen slagen”. Dit zeggen ze erover:

We passen dan een ’eenvoudige’ analyse toe, waarbij we ervan uitgaan dat het prestatieniveau van de groep kandidaten in

één bepaald jaar niet zal verschillen van de groep kandidaten in een volgend of voorgaand jaar. Het gevolg van deze aanname is dat de normering zo aangepast kan worden, dat elk jaar het percentage onvoldoende op het examen gelijk is.  Een vergelijkbare manier is de normering zo aan te passen, dat het gemiddeld cijfer dat de populatie haalt elk jaar gelijk is.

Als leerlingen beter hun best gaan doen, zal de examencommissie schrikken en de N-term drastisch omlaag gooien. Want we moeten natuurlijk wel genoeg onvoldoendes hebben. Leerlingen krijgen een lager punt puur en alleen omdat anderen beter presteren. Niet omdat ze zelf slecht presteren, maar omdat anderen waar ze niks mee te maken hebben het goed hebben gedaan.

**Opmerking: **op hun site vind je dat ze streven om een percentage onvoldoendes tussen de 15 en 35 te houden. Dit is de quote:

… leidt tot een percentage onvoldoendes tussen de 15 en 35. Dat blijkt redelijke gemiddelde slaagkans te bieden en een redelijk ‘voordeel van de twijfel’.

GEBASEERD WAAROP!? Wat is een “redelijke gemiddelde slaagkans”? Wat is een “redelijk voordeel van de twijfel”? Waarom zou je überhaupt voordeel van de twijfel betrekken bij examens die verder een hele strakke normering hebben? Een docent zegt toch ook niet “je hebt een 5,3 voor je eindexamen, maar ik vind je een toffe peer, dus ik geef je een 5,6 en we zeggen er niks meer over”?

Opmerking: nog leuker, even later in het bericht:

Een percentage onvoldoendes lager dan 15 werkt niet nadelig uit voor kandidaten, maar is eveneens een aandachtspunt omdat daarmee de prikkel om te presteren kan wegvallen.

(Merk op dat ik de komma voor “maar” zelf heb ingevoegd voor de leesbaarheid.) De prikkel om te presteren? Wat denk je dat mensen aan het doen zijn bij examens? Aan het genieten van de ongelofelijke rust en vrijheid van het beantwoorden van _super_makkelijke vragen? Ik bedoel, ik kwam ook niet naar school om te presteren hoor, ik kwam omdat ik het zó fijn vindt om urenlang in een stoel te zitten en mezelf te moeten bewijzen.

The Fault in our Nakijkmodellen

Je zou denken: als ze zo gebrand zijn op die N-term en hun statistische modellen, dan gaan ze vast goed, logisch en wiskundig correct om met fouten die worden gevonden? Nope.

Ondanks de claims dat hun examens natúúrlijk uitvoerig getest en bestudeerd zijn, vindt men elk jaar vele fouten in de examens zelf én vooral de nakijkmodellen. Dat is niet erg: iedereen maakt fouten. Ik ben de eerste om dat te verdedigen. Maar de manier waarop ze hiermee omgaan is vervelend.

Als men kritiek heeft op een vraag of antwoord, is de eerste reactie van het CvTE vaak om te zeggen “jullie hebben geen gelijk, dit en dit is wat we bedoelden, en er verandert niks”. Pas als er genoeg kritiek komt, en het gezeur lang genoeg aanhoudt, veranderen ze misschien iets. (Altijd een slecht teken: niet handelen op basis van iemands argumenten, maar op basis van hoeveel mensen boos zijn.)

Als er dan tóch iets aangepast wordt, zijn ze geneigd om de vraag te schrappen. In plaats van toegeven dat ze een fout hebben gemaakt, en iedereen die daar recht op heeft hun punten geven, halen ze liever de hele vraag weg. Nee, dáár zullen ze blij mee zijn. Die vraag heeft toch echt energie en tijd gekost; je kunt hem niet zomaar weghalen.

iemand komt thuis

“Hé schat! Had je gezien dat ik cake had gebakken? Heb je hem op tijd uit de oven gehaald?”

ze haalt de cake uit de oven, laat hem zien, met een droevig gezicht

“Oh … ehm … ik heb ’m een beetje laten aanbranden.”

“Oh dat maakt niet uit, dan snijden we de verbrande stukjes -”

ze gooit de cake in de prullenbak

“Oepsiefloepsie, nou heb ik hem al weggegooid!”

En als ze dan tóch iedereen de “gratis punten” geven voor een vraag, moeten ze natuurlijk wel de N-term aanpassen om de boel weer gelijk te trekken.

Hier is een mooie discussie over een vraag uit het Nederlands examen: https://www.neerlandistiek.nl/2018/06/ingenieurs-denken-zelf-ook-na-fout-in-het-vwo-examen/

De samenvatting: het nakijkmodel zegt dat de leerling per se het woord “bètawetenschappers” moet gebruiken, en dat het gebruik van het woord “ingenieurs” fout is. Vervolgens vallen heel veel mensen daar overheen, inclusief de schrijfster van het stuk, om te zeggen dat “ingenieurs” toch echt een betere keuze is. (Vervolgens zeggen mensen dáárover weer dat je best mag afwijken van de nakijkmodellen, of dat het echt niet zo strak is. Vervolgens komen dáárover weer docenten die aanwijzen dat in het reglement staat dat je echt niet af mag wijken van het correctiemodel.)

Wie spreekt de waarheid? Ik geloof deze mensen, en mijn eigen docenten toentertijd, als ze zeggen dat je niet mag afwijken en het nakijken heel strikt gaat. Dit is belachelijk. De aanname hier is dat het CvTE goddelijk en ongenaakbaar is, en dat leerlingen maar afgestraft moeten worden als de examencommissie een keer een fout maakt of te beperkt is in haar visie. (Maar laat ik mezelf niet gaan herhalen over hoe stom het is om woorden of antwoordlengtes te forceren.)

Toevallig kwam NOS net met een artikel over docenten die geschorst zijn nadat ze afweken van het nakijkmodel: https://nos.nl/artikel/2236476-docenten-weggestuurd-na-goedkeuren-foute-examenantwoorden.html 

Ik geloof die docenten ook als ze zeggen dat er geen opzet in het spel is. Dat is toch het hele idee van een tweede corrector? Een van de twee kan fouten maken, en dan is er altijd die ander om het te corrigeren.

Een veelzeggend voorbeeld

Vorig jaar was er een vraag in het Frans examen waarbij achteraf een tweede antwoord werd goed geteld. Eén studente was gezakt omdat ze als gevolg van een rare regeling net één tiende tekort kwam. Ze had de vraag goed, maar vanwege onnavolgbare logica kreeg ze er minder punten bij dan andere mensen, waardoor ze net tekort kwam. Ze spande een rechtszaak aan, maar verloor deze omdat het CvTE alles volgens de regels had gedaan. (De hele uitspraak is trouwens hier te vinden: https://uitspraken.rechtspraak.nl/inziendocument?id=ECLI:NL:RBMNE:2017:4334.)

Nu, vanwege die rechtszaak, is die mooie formule boven tafel. Deze luidt:

Punten erbij = 9PM/L

M = het maximale te halen punten is voor de vraag
L = het maximale aantal punten voor het examen
P = het gemiddelde percentage punten dat door alle leerlingen is gehaald op die vraag

Weet je nog dat ze bijhielden hoe “moeilijk” een opgave was? Nou, dat is dus die P-waarde. Als die 0.5 is op een 1-punt vraag, had 50% de vraag goed. Hier komt die P-waarde terug om de leerling in de kont te bijten.

De samenvatting van de formule is: als een antwoord achteraf tóch goed wordt gerekend, hangt het van de prestaties van de rest en opbouw van de toets af, hoeveel punten je erbij krijgt. Dat is raar. Je zou denken: “deze vraag is 2 punten waard, dus als je hem goed hebt, krijg je die 2 punten”. Maar nee. Als je hem goed hebt, maar dat antwoord stond in eerste instantie niet in het nakijkmodel, en maar 50% van de mensen hebben die vraag goed, dan kun je fluiten naar je 2 punten.

Conclusie

Eindexamens zijn cruciaal. Ze beslissen of je het felbegeerde diploma krijgt. Ze beslissen je toekomstpad, en of je überhaupt dat jaar al mag beginnen aan dat pad. Ze zouden moeten laten zien aan de wereld: “kijk, ik kan al deze dingen, ik ben competent en klaar voor de rest van mijn leven.”

Maar dat doen ze niet. Ze wegen te zwaar, gaan ronduit oneerlijk om met normering, toetsen niet daadwerkelijk wat ze willen toetsen, en zelfs als dat lukt toetsen ze stof die je waarschijnlijk niet nodig hebt.

Mijn voorstel

**Leuk hoor, al die kritiek. Wat stel je zelf voor dan? **Het volgende, voor zover dat uit het artikel nog niet duidelijk was:

  • Minder waarde hechten aan eindexamens. In de ideale wereld, zouden eindexamens worden afgeschaft, en zou een leerling worden beoordeeld op de jarenlange prestaties op school. Eventueel zouden eindexamens slechts een feedback-moment kunnen zijn. In plaats van dat je er een punt voor krijgt, krijg je ermee inzicht in waar je het beste in bent of wat je het leukst vindt. Als dat niet mogelijk is, kan men eindexamens fors minder mee laten tellen. (Richting de 10%, 20%, 25% hoogstens.)
  • Onderwerpen evenredig toetsen. Een examen moet een goede, willekeurige, representatieve test zijn van de te leren stof. De tentamenstof bestaat uit een groot aantal duidelijk onderverdeelde onderwerpen en hoofdstukken; zo moeilijk kan het toch niet zijn om daar willekeurig uit te pakken?
  • Andere prioriteiten. Sommige onderwerpen zijn, in mijn ogen, té belangrijk om te laten compenseren met iets anders. Deze onderwerpen zouden altijd in het examen moeten komen, en als je deze niet haalt, haal je het geheel niet. Ik gaf al het voorbeeld van op voldoende niveau kunnen communiceren (lezen, schrijven en spreken) in het Nederlands. Een ander voorbeeld is simpele rekenexercities. (Zoals rekenen met procenten of getallen door elkaar delen.) Schrikbarend veel geslaagde scholieren kunnen dit niet of niet voldoende.
  • Onderwerpen toetsen die écht belangrijk zijn voor de transitie naar het leven ná de middelbare school. Dit ligt natuurlijk niet per se aan de eindexamens. Ze zouden sowieso vakken op school moeten geven als “algemene levensvaardigheden”, en “psychologie”, en “goed omgaan met je gezondheid” (hoewel dat bij “gym”/“lichamelijke opvoeding” zou moeten horen). Maar toch, ergens moet een begin gemaakt worden, en waar beter dan bij de eindexamens?
  • Daadwerkelijk goede vragen stellen, en meer vrijheid geven qua antwoorden. Geen meerkeuze. Geen restricties. Geen vragen die je zou kunnen beantwoorden door te gokken of door de juiste “strategie” te leren. Nu heb ik namelijk mijn hele bovenbouw geleerd “hoe je zo goed mogelijk een toets maakt”, in plaats van dat ik daadwerkelijk iets heb geleerd. Als je zulke examens maakt zie je ook meteen veel beter wie wél goed heeft geleerd en wie niet.
  • Geen rare regeltjes of gesleutel aan normering. Je maakt een examen, verbindt daar punten aan, en gebruikt de standaardformule. Klaar. Als een vraag achteraf een fout blijkt te bevatten, of een tweede antwoord blijkt goed, geef iedereen de volle mep (want er is echt geen enkele (morele) reden om dat niet te doen). Het zou helpen als men compleet transparant was over al deze zaken, formules en regelingen.
  • Examens op het juiste niveau krijgen door middel van een goed systeem. Het is niet lastig om een schaal te bedenken voor de “moeilijkheid” van een soort vraag. Een vraag als “geef het snijpunt van lijn X en parabool Y” is minder moeilijk dan “bereken de formule onder deze grafiek als je deze wentelt rond de x-as”. Een vraag als “wat is de functie van alinea 2” is minder moeilijk dan “vat bovenstaande tekst samen (in je eigen woorden)”. Als je deze schaal eenmaal hebt, kun je hem feilloos gebruiken om examens te maken waarvan je de moeilijkheidsgraad vrij zeker weet. (En als je mis zit, dan pas je dat aan. Je wordt je elk jaar beter!) Om het zeker te weten kun je de examens nog laten testen (voordat je de normering vast stelt), en het oordeel van deskundigen meenemen over hoe lang en hoe moeilijk een opgave is.

Ik denk dat dit een grote verbetering zou zijn. Ik denk dat het de hele bovenbouw nuttiger, efficiënter, en minder stressvol maakt. Je leert praktische dingen, alles wat je doet en leert heeft uiteindelijk daadwerkelijk een functie, en je verspilt geen tijd met alleen maar examentrucjes leren of stressen over dat grote, boze eindexamen dat zo zwaar meetelt.