De valkuilen van een vrouwentraan

Crisis in het onderzoek Hoe lastig onderzoek soms na te doen is, blijkt uit een casus met vrouwentranen.

Illustratie Arjen Born

In januari 2011 zat de Tilburgse hoogleraar Ad Vingerhoets „twee dagen te shaken”. Psycholoog Vingerhoets, die al 25 jaar onderzoek naar huilgedrag doet, had die week een Israëlisch onderzoek in Science gelezen. De publicatie van de groep van Noam Sobel toonde aan dat vrouwentranen feromonen bevatten, die mannen de lust ontnemen.

Het was een compleet nieuw inzicht. Deze vondst zou een heel nieuw vakgebied kunnen openen, dacht Vingerhoets.

Dat gebeurde niet. Sinds 2011 heeft één groep in Zuid-Korea een deel van Sobels conclusies herhaald. Maar geen enkele publicatie, niet die van de Koreanen en ook niet die van Sobel zelf, bouwde voort op het Science-artikel.

Vingerhoets vermoedt wat de reden is. In de afgelopen vijf jaar probeerde hij met zijn Kroatische postdoc Asmir Gracanin meermalen om Sobels experiment te herhalen, met meer dan 250 proefpersonen. Tevergeefs.

Het leverde hun een publicatie op, en ruzie. In Cognition and Emotion (8 maart) concluderen Vingerhoets en Gracanin dat het traneneffect geen stand houdt. „Als er al een substantie in vrouwentranen zit die de seksuele opwinding van mannen remt, is de invloed ervan minimaal.”

Sobel, van het Weizmann Instituut in Rehovot, sabelde hun werk neer in een geschreven reactie. Vingerhoets en Gracanin voerden zijn onderzoek verkeerd uit, vindt hij. En hij doet er een schepje bovenop: als je die gegevens anders analyseert, slaagt de replicatie juist!

Er is vooral in de psychologie veel aandacht voor het repliceren van onderzoek. Maar de tranenkwestie laat zien dat er veel hindernissen zijn. Minstens vier.

1. Negatieve replicaties zijn lastig te publiceren

De studie in Israël was begonnen met tranen. Vrouwen hadden ze in een potje geplengd terwijl ze naar treurige films keken. Die tranen maakten mannen lusteloos als ze ze inhaleerden. De mannen vonden vrouwengezichten minder seksueel aantrekkelijk, het testosteron in hun speeksel daalde, en op hersenscans werden gebieden minder actief die met lust geassocieerd worden.

Vingerhoets ging er snel mee aan de slag. Zijn studenten deden testjes naar mannenlust en vrouwentranen, ongeveer zoals Noam Sobel had gedaan – en vonden niks. Hoe kon dat? De hoogleraar had er niet goed bovenop gezeten, zegt hij. De metingen van de studenten waren „een rommeltje”.

Toch vond de Tilburgse hoogleraar het vreemd. Hij pakte het serieuzer aan. Met de Kroatische psycholoog Asmir Gracanin, ook geïnteresseerd in tranen, maakte hij een plan. Beiden zouden, volgens dezelfde opzet, een replicatie doen – Vingerhoets in Tilburg, Gracanin aan de Universiteit van Rijeka.

150 mannelijke studenten (75 in Kroatië, 75 in Nederland) deden mee. Hun taak: beoordelen hoe sexy ze foto’s van vrouwen in lingerie of bikini vonden, en hoe aantrekkelijk vrouwengezichten op foto’s. Alle studenten hadden van tevoren diep in een reageerbuis geïnhaleerd waarin een vloeistof zat. En terwijl ze achter hun computer hun Tindertaakje uitvoerden, zat die vloeistof in een pleister die onder hun neus geplakt was.

Bij eenderde van de studenten was de vloeistof zout water. Bij eenderde van de studenten waren het ‘irritatietranen’, opgewekt door vrouwen menthollucht in hun ogen te blazen. Dat waren de twee controlegroepen. En eenderde van de studenten kreeg de vloeistof onder de neus waar het om ging: tranen die waren gevloeid toen vrouwen naar huilfilms keken, zoals Hachi: A dog’s tale, over een ontroerend trouwe hond.

Er kwam helemaal niets uit. Vrouwentranen, of ze nu door menthol of door hondenfilms waren opgewekt, hadden geen enkel effect op de seksuele gevoelens van mannen.

Gracanin en Vingerhoets schreven een manuscript met die boodschap en dienden dat begin 2014 in bij PLOS One.

Gracanin: „Afgewezen.”

Vingerhoets: „We kregen het snel terug, met kort commentaar.”

De beoordelaars vonden het aantal proefpersonen te klein en de opzet te weinig lijken op die van de Israëlische studie.

Vingerhoets: „Dat waren we ergens wel met hen eens.”

Gracanin: „Het was een conceptuele replicatie, geen exacte.”

Vingerhoets: „Maar als je helemaal níets vindt, maakt dan het aantal proefpersonen nog wat uit?”

2. Je kunt een onderzoek nooit exact herhalen

Vingerhoets en Gracanin deden een nieuwe poging. Eerst breidden ze hun studie met nog eens 75 Tilburgse studenten uit, voor meer statistische power.

Maar bovendien pakten ze het rigoureuzer aan. Ze probeerden de studieopzet van het Weizmann Instituut na te apen, tot die, zoals ze in Cognition and Emotion schrijven, „helemaal hetzelfde” was. Dat wil zeggen: dat deel dat over de seksuele aantrekkelijkheid van vrouwen op foto’s ging. De lastige en dure onderzoeken met speekseltests en hersenscans lieten ze achterwege.

Maar dat de Tilburgse opzet „helemaal hetzelfde” is, bestrijdt Sobel: De Tilburgse opzet was „totaal anders”, reageert hij.

Aanvankelijk waren er zeker twee opvallende methodologische verschillen tussen de Israëlische en de Kroatisch/Nederlandse studie. Eén: de Israëlische studenten hadden alleen naar vrouwengezichten gekeken, niet ook naar halfnaakte lichamen. En twee: in de Israëlische studie werden dezelfde proefpersonen tweemaal getest. De ene dag inhaleerden ze zout, de volgende dag tranen, of andersom.

Dat losten Gracanin en Vingerhoets op in de nieuwe studie met nog eens 28 studenten. Wéér was er geen effect. Maar was die studie dan identiek aan die van de Israëliërs? Nee, geeft Vingerhoets toe. „Dat hadden we niet moeten beweren.”

De Tilburgers waren op een onverwacht probleem gestuit met de foto’s van vrouwengezichten die Sobel had gebruikt. „Onze studenten vonden die foto’s zó onaantrekkelijk, dat het onmogelijk was om daar nog een daling in aan te tonen.” Misschien hebben Tilburgse jongemannen een andere smaak dan Israëlische. Er kwamen nieuwe foto’s, van mooiere dames.

Daarmee was er wel een basaal verschil tussen de experimenten ontstaan. De stimuli waren niet gelijk. Dat kan echt niet, reageert Sobel desgevraagd. „Hij had echt onze gezichten moeten gebruiken.” Maar de reviewers van Cognition and Emotion hadden geen bezwaar. Het manuscript werd geaccepteerd.

3. De kans op ruzie met de oorspronkelijke onderzoekers is groot

Het is belangrijk om met de oorspronkelijke onderzoekers samen te werken, aldus psychologen die werkwijzen voor replicatie schetsten. Ad Vingerhoets stuurde al in 2011 een mailtje naar Noam Sobel, voor tips over de onderzoeksopzet. Het ging over de gebruikte plakpleisters, over de versheid van de tranen, en over de onderzoeksruimte. De toon was welwillend.

Vingerhoets mailde: „We vroegen ons af of het belangrijk is om zulk onderzoek in een speciale kamer voor geuronderzoek uit te voeren. Die hebben we hier aan de universiteit niet.”

Sobel: „Ik denk dat dat totaal onbelangrijk is.”

Verder leidden de Tilburgers de methodologie af uit de Science-publicatie en het bijbehorende datasupplement. Dat de huilende vrouw geen make-up mocht dragen, dat de tranen over haar wangen gebiggeld moesten hebben, dat het onderzoek ’s ochtends moet worden uitgevoerd.

Maar andere details in de methodensectie misten ze. In de reactie die Noam Sobel naar Cognition and Emotion stuurde, is hij daarover kritisch. De studenten moesten vóór de gewone vrouwengezichten eerst nog naar droevige gezichten kijken, voor de ‘verdrietige context’. Tijdens het inhaleren van de tranen moest een bepaalde procedure worden gevolgd. En, ten slotte: het werk móest uitgevoerd worden in een speciaal lab voor geuronderzoek.

Is dat niet inconsequent? Helemaal niet, vindt Sobel. „Het gaat mij niet om die speciale roestvrijstalen kamer. Het gaat om de hele testaanpak in een lab voor geuronderzoek. Er zijn many, many things die ze nagelaten hebben.

„Ik heb Vingerhoets zelfs voorgesteld om een student hier op mijn kosten te laten werken, om het experiment te leren. Ze weigerden. Dat vind ik nog het ergst.” Dat was afgelopen herfst, toen de tests al waren afgerond. Er is niemand beschikbaar, had Vingerhoets gereageerd.

4. Het is onduidelijk wat een mislukte replicatie betekent

De kwestie wordt nog gecompliceerder. De Tilburgers hadden geen enkel statistisch significant effect gevonden van tranen op mannelijke lust. Niet in hun afzonderlijke experimenten, en niet als je ze allemaal combineert.

Maar, reageerde Sobel, dat effect is er wel! Eén van die experimenten waren er in feite twee, allebei gedaan in Tilburg maar met anderhalf jaar ertussen. Trek je die uit elkaar, dan is de uitkomst van één van beide significant: p=0,045. Wat nou mislukte replicatie? Geslaagd!

Aan de telefoon suggereert Sobel dat de Tilburgers die analyse expres hebben weggelaten. „Dit grenst aan wetenschappelijk wangedrag.” In een geschreven reactie naar Cognition and Emotion ontkennen de Tilburgers. „Er is niet in de data gegraven.” Ze blijven bij hun conclusie, besluiten ze.

Noam Sobel zegt geen waarde te hechten aan de Tilburgse replicatie. „Dit is niet fijn, maar op de lange termijn maakt het niets uit. We zijn bezig met experimenten die onze eerdere resultaten bevestigen.”

Ad Vingerhoets is niet overtuigd. „Als je een effect van tranen op lust alleen vindt in een geurvrij lab, alleen in een ‘verdrietige context’ en – en dat vind ik het toppunt – alleen als je naar vrouwengezichten kijkt en niet naar lichamen… Wat heeft het dan nog voor betekenis in de echte wereld?”