Valkuilen bij het ontwerpen van een toets

Dit jaar volg ik een cursus om mijn Basiskwalificatie Didactische Bekwaamheid te halen. De hogescholen hebben met elkaar afgesproken wat een HBO-docent moet kunnen, en dat leer ik nu: hoe leren in de hersens werkt, hoe je de studenten meekrijgt, het ontwerpen van een goede toets. Alleen het onderwijs-deel dan, vakinhoudelijk word ik met mijn Masterdiploma bekwaam genoeg geacht. In de cursus is het onderwerp toetsing belangrijk. Daar zitten wettelijke eisen aan, we mogen gelukkig niet zomaar wat doen. En daarnaast zijn onderwijs en toetsing sterk met elkaar verbonden. Je kunt het je voorstellen: je kunt alleen toetsen wat je onderwijst, en hoe je toetst moet aansluiten bij wat je wilt dat de studenten of leerlingen kunnen en bij hoe je het ze hebt geleerd.

Vandaag enkele instinkers bij het maken van toetsen. Ik ben het zelf nog aan het leren, maar deze dingen vind ik lastig. Leuk als kijkje achter de schermen van het onderwijs. De informatie is gebaseerd op het boek “Basis Kwalificatie Examinering in het hoger beroepsonderwijs” van Lia Bijkerk, de meningen zijn van mezelf.

Formatief of summatief

Er is nogal veel aandacht tegenwoordig voor formatief toetsen. Formatief toetsen is toetsen om de student feedback te geven over zijn voortgang. De student krijgt geen cijfer, het is puur bedoeld om hem of haar te laten weten hoe hij of zij ervoor staat. Vanuit het oogpunt van leren is dat heel nuttig: de student weet wat er nog te leren is, en daardoor leert hij of zij beter.

Summatief toetsen is toetsen voor een beoordeling die meetelt. Dat kan in allerlei vormen: een cijfer voor een presentatie, een vinkje voor een volbrachte taak, een multiple choice toets, noem maar op.

Gemotiveerde studenten (zie ook dit stukje) met de juiste capaciteiten en persoonlijke omstandigheden zou je puur met formatieve toetsen naar hun diploma kunnen coachen. Dat neemt veel stress en druk weg. Maar helaas is bijna geen enkele student vier jaar lang gemotiveerd en scherp. Summatieve toetsen lijken mij dus nodig om de voortgang te bewaken: ze dienen als toegangspoorten voor het vervolg van de studie. Gaat er iets mis, dan zegt de toets: ho, stop, dit zit er nog onvoldoende in.

Waar is die valkuil dan?

Wat is hier lastig aan? Veel formatief en weinig summatief toetsen klinkt als een logische keuze, maar maakt de summatieve toetsen relatief zwaar. Dat kan stressvol zijn. Summatieve toetsen helemaal weglaten is lastig voor de buitenwereld: hoe borg je dan het gewenste eindniveau? Veel summatief toetsen is demotiverend: voor je het weet leren studenten alleen maar wat getoetst wordt. Weinig toetsen en je hebt geen idee hoe de studenten ervoor staan, en zijzelf ook niet. Veel toetsen en je komt niet meer aan onderwijs toe. Plus nog de vraag wanneer je welke toets inzet: het vergt lef om een summatieve toets te vervangen door een formatieve, omdat je daardoor zo’n toegangspoort weghaalt én meer verantwoordelijkheid bij de student legt. Dus andersom, een formatieve toets vervangen door een summatieve, wat voelt als een noodgreep, kan ook in het belang van de student zijn.

Teaching to the test

Mijn jongste mag volgende week afzwemmen voor zijn B. Wat heeft hij geoefend op zwemles? Nou, precies de dingen die hij moet laten zien op zijn examen. Een prachtig voorbeeld van teaching to the test: ze hebben hem niet geleerd beter te zwemmen, ze hebben hem precies bijgebracht wat hij moet kunnen om dat diploma te halen. Gelukkig zitten die zwemexamens best goed in elkaar, dus hij kan echt wel zwemmen. Maar je kunt je voorstellen dat dit een valkuil kan zijn.

Verdieping en verrijking zijn zelden onderdeel van een toets, maar ze maken de lesstof interessanter en rijker, en daardoor beter te onthouden. (Stukje hersenwetenschap: je leert makkelijker als je wat je leert kunt verbinden met wat je al weet, dus hoe meer mogelijkheden om zo’n verbinding te leggen hoe beter.)

Teaching to the test, erg en erger

In de lichtste vorm van “teaching to the test” besluit een basisschoolleerkracht van een klas vol kinderen met complexe problemen alles wat niet in de Cito-toets zit maar te laten zitten, omdat hij al blij is als hij dat er in krijgt. Niet de bedoeling, maar hij moet wat. Zijn leerlingen kennen dan weliswaar niet alles, maar de behandelde onderwerpen beheersen ze wel in de breedte.

Ernstiger is het als een docent die de inhoud van de toets kent alleen die onderwerpen behandelt waarover vragen gaan komen. Stel je voor: de lesstof bij rekenen is optellen, aftrekken, vermenigvuldigen en delen, maar alleen de sommen die op te toets langskomen worden geoefend. Dus wel 7x5maar niet 4×6. Niet de bedoeling hè! Maar de studenten halen prachtige cijfers, dat wel.

Als ik het zo opschrijf is het logisch dat een goede docent dit niet doet. Maar ook ik betrap me er soms op dat ik de neiging heb bij onderwerpen die in de (al ingeleverde) toets zitten het belang extra te benadrukken. Dus als je niet alert bent sluipt het er zomaar in!

Compensatie

Onlangs heb ik voor een toets alleen maar voldoendes gegeven. Ik was wat verbaasd, want ik wist zeker dat de studenten niet allemaal even hard hadden gewerkt. Wat bleek: dikke onvoldoendes op de losse onderdelen werden gecompenseerd door voldoendes op andere onderwerpen. Sommigen bleken niet alle stof goed begrepen te hebben, maar bij anderen kon ik zien dat ze berekenend te werk waren gegaan: alle aandacht voor de onderwerpen die ze beheersten. Zouden ze losse toetsen voor de losse onderwerpen hebben gehad dan waren er behoorlijk wat onvoldoendes gevallen. (Deze toets ga ik als onderwerp nemen voor mijn “verbeter de toets”-opdracht voor mijn opleiding. In dit geval was het geen probleem, omdat alle onderwerpen nog meerdere keren gaan terugkomen. Maar je wilt niet dat een student hierdoor een onderwerp gewoon niet beheerst aan het eind van zijn studie.)

Een oplossing hiervoor is een bodemcijfer voor elk onderdeel, of een aparte toets per onderdeel. Maar dat betekent ook dat elk onderdeel een volwaardige toets moet zijn, niet een paar losse vragen, anders is de toets niet representatief voor de stof. Dus wordt de toets langer, wat weer andere problemen met zich meebrengt.

Taligheid

Grote frustratie van goede rekenaars met dyslexie: verhaaltjessommen. Informatie uit een verhaal halen kunnen ze best, rekenen gaat goed, maar als dat verhaal op papier staat loopt het spaak op het lezen.

Veel toetsen zijn erg talig: je moet de taal goed kunnen lezen en begrijpen om de toets goed te kunnen maken. En je moet vaak ook nog goed kunnen schrijven, of in elk geval je gedachten kunnen verwoorden. (Spelfouten tellen niet mee.)

Dat is in het voordeel van mensen die handig zijn met taal, maar in het nadeel van:

dyslectische leerlingen
beelddenkers
studenten met een andere moedertaal
mensen met een slecht handschrift (ja, daar is wat aan te doen, maar tentamenstress heeft geen goede invloed)
studenten met een stoornis in het autistische spectrum, die metaforen vaak letterlijk opvatten, dingen anders interpreteren en echt vastlopen als een vraag in hun ogen onlogisch is geformuleerd

Dat is in een schriftelijke toets deels te ondervangen door eenvoudiger taalgebruik, minder tekst, gebruik van afbeeldingen e.d., maar het is ook goed en belangrijk daarnaast op andere manieren te toetsen. En met een toets op de computer kun je bijvoorbeeld dingen vertellen en laten zien, naast tekst. Zo’n computertoets kent ook nadelen, maar is alleen hierom al het overwegen waard.

Het verkeerde toetsen

Nog zo’n valkuil: per ongeluk het verkeerde toetsen. Dat kan op twee manieren: enerzijds kun je de juiste stof toetsen op het verkeerde niveau, anderzijds kun je per abuis de verkeerde stof toetsen.

Op ’t verkeerde niveau toetsen.

Je kunt stof op verschillende niveaus beheersen. (Een bekende en veelgebruikte ordening van de beheersingsniveaus is de taxonomie van Bloom, zie dit interessante artikel, met kritiek en een verbeterde visuele weergave van de taxonomie.) Mijn oudste leert bijvoorbeeld Frans. Dat begint heel basaal: wijs aan welk van de plaatjes “le bébé” is, welke “le chat” en welke “la grand-mère”. Puur kennis reproduceren dus. Het heeft geen zin van hem te verwachten dat hij een artikel schrijft of een vloeiend gesprek voert. Andersom kun je iemand die vloeiend Frans spreekt en schrijft een woordenschat-toets geven, maar daarmee toets je niet alles wat hij/zij kan. (Zo was in mijn tijd het landelijke eindexamen voor de moderne vreemde talen een begrijpend lezen-toets. Heel belangrijk dat daarnaast de school nog cijfers gaf voor andere onderdelen van de taalbeheersing!)

De verkeerde stof toetsen

Natuurlijk probeer ik als docent met elke toets precies dat te toetsen wat ik de studenten heb bijgebracht. Maar er zitten addertjes onder het gras. Voorbeelden laten zien dat je, met alle goede bedoelingen, studenten soms op iets anders afrekent dan je zou willen:

- Bij vormgeving moet een student een tekening maken. Studenten die tekenen moeilijk vinden staan dus op achterstand.
- Bij ergonomie geef ik informatie (tekst en tabellen) waar de student de relevante gegevens uit moet halen. Toets ik dan ergonomie, of informatieverwerking, of begrijpend lezen?
- In mijn laatste toets voor ergonomie moesten de studenten een statistische berekening maken. Toets ik dan ergonomie, statistiek of wiskunde?
- Ontwerpen gebeurt bij onze opleiding meestal in groepjes. Toetsen we dan teamwork, of ontwerpvaardigheden?

Beide valkuilen zijn te omzeilen door goed op te letten. En wat de tweede (het verkeerde toetsen) betreft: soms hoort het één bij het ander. Geen ergonomie zonder basale statistiekkennis, geen vormgeven zonder tekenen. Dus is het niet erg als de kennis van een ander vak meeweegt bij de beoordeling. (Stel je voor; anders zou je bij natuurkunde nooit een berekening mogen vragen, want da’s wiskunde. Of bij geschiedenis geen schriftelijke antwoorden, want da’s Nederlands. Enzovoorts.)

Je kunt je voorstellen dat dit een onderwerp is waar ik me aardig mee kan amuseren! Misschien dat ik nog eens een lijstje succestips kan maken, als ik e.e.a. af heb…

Nieuwe Muze