Gaat de wetenschap ten onder aan de beoordeelziekte evaluïtis?

Ja, zeggen twee hoogleraren van de universiteit van Zürich. Voortdurende evaluaties leiden tot middelmatige wetenschap.

Nee, zegt een Leidse citatiedeskundige: wie topprestaties wil leveren, moet genoegen nemen met evaluaties.

De permanente evaluatie van universiteiten en hun personeel geeft blijkt van een gebrek aan vertrouwen. Zij suggereert dat wetenschappers uit eigen beweging geen goede prestaties zouden kunnen leveren.

Een ziekte heeft zich van de wetenschap meester gemaakt: de evaluïtis. Met steeds kortere tussenpozen worden universiteiten, faculteiten, afdelingen, instituten, onderzoeksgroepen en individuele onderzoekers beoordeeld. Als ‘evaluatie’ wordt hier het achteraf beoordelen van de prestaties van een organisatie of persoon door externe experts bedoeld. Evaluaties hebben verborgen en daardoor vaak over het hoofd geziene kosten. Hun nut wordt te hoog gewaardeerd en het resultaat niet zelden overschat.

Evaluaties zijn weliswaar in sommige gevallen noodzakelijk, maar ze verbeteren niet altijd het wetenschappelijke systeem. Ergo, ze veranderen het gedrag van de betrokken personen op een systematische en onbedoelde wijze, onafhankelijk van de vraag hoe zorgvuldig ze worden doorgevoerd.

Niet alle relevante aspecten van gekwalificeerd werk kunnen van tevoren worden vastgelegd of achteraf worden gemeten. Een evaluatie aan de hand van vooraf vastgelegde criteria is voor de beoordelaars aanleiding om zich overwegend op deze criteria te richten. Vaak wordt bij evaluaties het aantal publicaties als maatstaf genomen. In dat geval zullen onderzoekers nieuwe ideeën of interessante onderzoeksdata als dunne plakjes salami afsnijden en in zo veel mogelijk magere publicaties verwerken. Ondubbelzinnig bewijs voor deze stelling is in Australië te vinden. Midden jaren negentig werden daar het salaris van wetenschappers en de financiering van de universiteiten aan het aantal publicaties in peer reviewed-tijdschriften gekoppeld. Zoals te verwachten nam het aantal publicaties dramatisch toe – maar de kwaliteit (gemeten aan het aantal citaties) verminderde dienovereenkomstig. Die zakte zelfs onder het gemiddelde van de OECD-landen.

Het aantal publicaties kan ook verhoogd worden als wetenschappers elkaar als co-auteur opvoeren wanneer er geen bijdrage tot het stuk is geleverd. De golf van publicaties zorgt er bovendien voor dat een leger van deskundigen moet worden ingezet om de publicaties te beoordelen. De werkdruk leidt er dan onvermijdelijk toe dat steeds oppervlakkiger beoordelingen worden geschreven of dat de beoordelingen door assistenten worden opgesteld.

Het meten van onderzoeksprestaties door middel van citaties leidt tot systematische vertekeningen. Er worden citatiekartels gevormd en de stimulans neemt toe om zich te wijden aan modieuze thema’s, waar veel aandacht voor is. Het toepassen van wetenschappelijke kennis in de praktijk of op andere vakgebieden wordt daarentegen verwaarloosd, omdat publicaties in algemeen toegankelijke boeken en lezingen voor een lekenpubliek, net als activiteiten op het terrein van advisering en scholing, geen citaten in wetenschappelijke publicaties opleveren.

Als uitweg voor deze problemen wordt vaak gekeken naar het verwerven van middelen uit de derde geldstroom. Die zeggen echter niets over de zin of de productiviteit van het onderzoek dat met dit geld wordt gefinancierd. Toch is dit criterium populair omdat geldstromen bijzonder makkelijk te meten zijn. Wordt een wetenschappelijke instelling hierop beoordeeld, dan is ze gedwongen om op zoek te gaan naar middelen uit de derde geldstroom en om tegelijkertijd minder goed meetbare onderzoeks- en onderwijsactiviteiten te veronachtzamen. Dit criterium is echter voor veel vakgebieden onzinnig, vooral op het gebied van de geesteswetenschappen. In de tweede plaats ontstaan prikkels om te veel onderzoeksgelden aan te vragen en om inefficiënt onderzoek te doen zodra de omvang van de derde geldstroom als doorslaggevend criterium van ‘prestaties’ wordt beschouwd.

Deze voorbeelden laten zich eenvoudig vermenigvuldigen. Het resultaat zijn steeds omslachtigere evaluatieprocessen. Er ontstaat een ‘ratrace’ die de wetenschap niet verbetert, maar die alleen tot hogere kosten leidt. De kosten van de voor evaluaties benodigde bureaucratie en de opkomende evaluatie-industrie zijn nu al enorm en worden door de koppeling van de beloning aan ‘prestaties’ nog verhoogd. Bovendien hebben de onderzoekers steeds minder tijd voor hun eigenlijke taken. Ze worden gedwongen om permanent óf te evalueren, óf geëvalueerd te worden.

Vervolg op Opinie & Debat pagina 2

Daar komt nog bij dat juist baanbrekend onderzoek vaak tegen de heersende wetenschappelijke mening ingaat. Dit type onderzoek wordt daarom in eerste instantie slecht beoordeeld en daar komt soms pas na tientallen jaren verandering in. Goed of zelfs revolutionair wetenschappelijk onderzoek onderscheidt zich door nieuwe criteria te genereren en tegen het heersende paradigma op te boksen.

Toponderzoek heeft tijd nodig om tot resultaten te komen die beoordeeld kunnen worden, en het duurt nog langer totdat zijn betekenis binnen de hoofdstroom van de wetenschap wordt erkend. Bij een beoordeling op basis van kortlopende publicatie- en citatiescijfers zouden heel wat baanbrekende onderzoekers weinig kans hebben gehad. Een bijzonder dramatisch voorbeeld is Ignaz Semmelweis, de ontdekker van de kraamvrouwenkoorts. Hij moest meer dan dertig jaar wachten op de erkenning en de toepassing van zijn onderzoeksresultaten die duizenden vrouwen het leven had kunnen redden.

Als een indicator belangrijk wordt voor de eigen positie, stimuleert dat om de indicator in het eigen voordeel te beïnvloeden. De directies van scholen kunnen de beoordeling van hun school verbeteren door de scholieren op specifieke examenvragen voor te bereiden en door slechte leerlingen onder allerlei voorwendsels van de desbetreffende tests uit te sluiten.

Zulke vormen van manipulatie zijn ook in de wetenschap verbreid sinds de onderzoeksprestaties in het kader van evaluaties aan de hand van kwantitatieve criteria worden gemeten. Universiteiten trekken graag wetenschappers aan die goed op de desbetreffende criteria ‘scoren’ om zo goed bij evaluaties en rankings voor de dag te komen. Voor het wetenschappelijk klimaat is dit ophemelen van onderzoeksresultaten schadelijk. Dit stimuleert namelijk het uitsluitend publiceren van succesvolle testresultaten en het verzwijgen of zelfs verdoezelen van negatieve resultaten – en dat terwijl het falsificeren van hypotheses tot de kerntaken van de wetenschap behoort.

Nog erger is het vervalsen van onderzoeksresultaten. In experimenten is aangetoond dat personen die zich gecontroleerd voelen in veel grotere mate bereid zijn om te bedriegen. Recente schandalen laten zien dat dit ook voor de wetenschap van toepassing is.

De met de evaluatie verbonden prestatiebeoordeling beïnvloedt de motivatie om te werken negatief wanneer betrokkenen het gevoel hebben dat deze evaluatie als controle bedoeld is. De totale productie – gemeten aan de vooraf vastgelegde criteria – hoeft niet per se te verminderen en kan zelfs toenemen. Het valt echter te betwijfelen of de gevolgen voor de kwaliteit en de originaliteit van het onderzoek gunstig zijn. Creatief onderzoek kenmerkt zich juist doordat het nieuwe maatstaven creëert, die zich soms maar langzaam door weten te zetten. Creatief onderzoek is daarom in hoge mate op persoonlijke motivatie aangewezen, die om die reden beter niet ondergraven mag worden. Bovendien geeft de permanente evaluatie een negatief signaal af. Ze toont dat het vertrouwen is opgezegd dat wetenschappers uit eigen beweging goede prestaties leveren in onderzoek en onderwijs. Dit opzeggen van het vertrouwen kan uitsluitend resulteren in een afnemende loyaliteit aan de instelling waar men werkt.

Wanneer instituties of personen aan een evaluatie worden onderworpen kunnen deze zich daar niet tegen verzetten, ook niet wanneer ze ervan overtuigd zijn dat zo’n evaluatie niet geschikt is voor hun situatie. Doorgaans wordt hen dan voor de voeten geworpen dat ze bang zijn voor de uitslag. Omdat de evaluatie meestal hand in hand gaat met de verdeling van middelen, moeten ze tegen beter weten in aan de evaluatie meewerken, bij voorkeur enthousiast. Op die manier wordt een instemming gesuggereerd, die in werkelijkheid helemaal niet bestaat.

Wanneer ze vervolgens bij de evaluatie positief beoordeeld worden, zijn ze verheugd en hopen ze op de bij de positieve evaluatie horende ruimere toewijzing van middelen. De verliezers zullen daarentegen meer moeite doen om zich tegen de gevolgen van de evaluatie teweer te stellen. Daar zijn altijd argumenten voor te vinden: overbelasting door onderwijsverplichtingen en bestuurlijke taken, te weinig middelen of gewoon pech. Achteraf wordt dan geprobeerd om de criteria in het eigen voordeel anders af te wegen.

Alleen in het hoogste en in het laagste prestatiesegment leveren de gehanteerde methodes eensluidende en betrouwbare resultaten op. Voor het middensegment – waarover informatie het hardst nodig is – differentiëren ze op een onbetrouwbare manier.

Ondanks alle twijfelachtige aspecten van evaluaties zou men kunnen denken dat er geen alternatieven zijn. Maar die zijn er zeker.

Wanneer de wetenschappelijke wereld anders zou worden ingericht, zouden de permanente evaluaties teruggedrongen en ten dele zelfs vervangen kunnen worden. Wanneer universiteiten stevig met elkaar concurreren is een evaluatie van staatswege overbodig. De studenten kiezen dan die universiteit, die volgens hen de beste prestaties levert. De universiteiten hebben de vrijheid om die studenten uit te kiezen, die het beste aan hun criteria voldoen en die de reputatie van de universiteit ten goede komen.

Het kan zijn dat studenten hun keuze graag op evaluaties en ranglijsten baseren. Er is een veelvoud van ranglijsten op de markt, die allemaal in meer of mindere mate bepaalde vragen beantwoorden, maar die de onderzoeksprestaties slecht of helemaal niet meten. Ook hier is concurrentie tussen de verschillende ranglijsten beter dan een poging een door de politiek gewenste ‘superranglijst’ op te stellen. Ook een zorgvuldig opgestelde superranglijst kan niet verhinderen dat deze de hierboven beschreven perverse verandering van motiverende prikkels tot gevolg heeft.

De gebruikelijke evaluatie achteraf van wetenschappelijke instellingen kan vermeden worden wanneer onderzoekend en onderwijzend personeel zorgvuldig geselecteerd wordt. Daarbij moeten de gebruikelijke criteria, zoals het aantal publicaties en de kwaliteit ervan worden gehanteerd. Zij garanderen dat aan de wetenschappelijke normen is voldaan en ze geven een indicatie voor de mogelijkheden van de kandidaten. Is iemand eenmaal op basis van strenge criteria tot professor benoemd voor een bepaald terrein van de wetenschap, dan moet die persoon vertrouwen krijgen. Daarom zijn benoemingsprocedures veruit het belangrijkste evaluerende activiteit binnen een wetenschappelijke instelling. Op basis van zorgvuldige selectie kan men erop rekenen dat de benoemde personen de verwachte prestaties leveren, ook zonder de voortdurende dreiging van evaluaties. Sommige van de geselecteerden zullen minder gaan presteren, maar anderen zullen juist door de geboden ruimte gemotiveerd raken om topprestaties te leveren. In de wetenschap moet dat laatste het zwaarst wegen.

Individuele onwilligen en mislukkingen moeten als noodzakelijk kwaad worden gezien, zodat het wetenschappelijke systeem als geheel topprestaties kan leveren. Daarentegen zullen voortdurende evaluaties, in het bijzonder de op resultaat georiënteerde evaluaties, slechts middelmaat garanderen. De als voortdurende controle ervaren beoordelingen bevoordelen slechts een ‘normale’ wetenschap zonder topprestaties. Onderzoekers als Albert Einstein of Max Planck in de bètawetenschappen en John Maynard Keynes of John Hicks in de economie zouden in het huidige systeem van permanente evaluatie waarschijnlijk niet erg succesvol zijn geweest.

Maar evaluaties van onderzoeksinstellingen kunnen niet helemaal worden vermeden, omdat er anders geen criteria zijn voor de verdeling van de middelen. De belangrijkste criteria zijn daarbij of zorgvuldige aanstellingsprocedures gegarandeerd zijn en of een hoge mate van autonomie in het onderzoeksproces is gegarandeerd. Op die manier wordt niet alleen rekening gehouden met de bijzondere problemen bij het beoordelen van prestaties in de wetenschap, maar worden ook de belangrijkste stimulansen voor onderzoekers – autonomie en een inspirerende wetenschappelijke omgeving – gecreëerd.

Een volgens deze criteria vormgegeven systeem heeft de Duitstalige wetenschap in het verleden wereldberoemd gemaakt. Het bestaat nog altijd in academische bolwerken als Harvard University, die men in andere gevallen zo graag als voorbeeld neemt

Dit is een bewerking van een hoofdstuk uit de bundel: If you’re so smart, why aren’t you rich? Universiteit, markt & management. Chris Lorenz (redactie). Verschijnt binnenkort bij Boom Meppel.

Bruno S. Frey is hoogleraar economie aan de Universiteit van Zürich. Auteur van onder meer ‘Economics as a Science of Human Behaviour’ (1992), ‘Inspiring Economics’ (2001) en ‘Happiness: A Revolution in Economics’ (2008). Margit Osterloh is hoogleraar Business Administration aan de Universiteit van Zürich. Auteur van onder meer ‘Investition Vertrauen. Prozesse der Vertrauensentwicklung in Organisationen’ (met Antoinette Weibel), (2006).