Computer legt het in een debat (nog) af tegen de mens

Kunstmatige intelligentie Debatteren is een jurysport. Een computer van IBM nam het op tegen een wedstrijddebater en verloor nipt. „Het is een indrukwekkend systeem.”

Debatcomputer Project Debater debatteert tegen opponent Harish Natarajan (rechts).
Debatcomputer Project Debater debatteert tegen opponent Harish Natarajan (rechts). Beeld Youtube

Hoe zouden de lijsttrekkers het hebben gedaan tegenover een computer? Een computer laten debatteren is niet eenvoudig, een systeem moet meerdere talige taken tegelijk kunnen. Onderzoekers van computerbedrijf IBM bouwden Project Debater. Tijdens een demonstratie in 2019 verloor de debatcomputer van een menselijke debatkampioen, maar mens en machine waren aan elkaar gewaagd. Hoe de kunstmatige intelligentie in Project Debater werkt, staat deze week in Nature.

De debatcomputer, een zwarte zuil met een vrouwelijke stem, kan deelnemen aan debatwedstrijden volgens een vast stramien waarbij om beurten drie korte betogen gehouden worden. Het publiek is de jury. Het demonstratiedebat ging over het subsidiëren van peuterspeelzalen. De menselijke opponent was Harish Natarajan, een van de finalisten van de World Universities Debating Championships in 2016.

Input voor de betogen haalt Project Debater uit een groot tekstcorpus afkomstig uit onder meer Wikipedia-lemma’s en 400 miljoen krantenberichten. Getraind met handmatig gelabelde data zoekt het systeem in het corpus naar zinnen met voor- en tegenargumenten die vervolgens via een neuraal netwerk worden gesorteerd op relevantie. Ook heeft de computer een kennisbank met handmatig gecureerde principiële argumenten, quotes en algemene voorbeelden die op veel onderwerpen toepasbaar zijn.

Klinkt als een computer

Tegenargumenten worden weersproken door de inhoud van het betoog van de tegenstander te vergelijken met de argumenten die het systeem met de zoektocht in het tekstcorpus ophaalde, en daar een passende reactie bij te zoeken. Het uitspreken van de tekst gebeurt door een tekst-to-speech-functie die gespecialiseerd is in het uitspreken van argumentatieve teksten – al klinkt de computer nog steeds als een computer.

Debatteren in competitievorm is een jurysport. Het publiek stemt voorafgaand aan het debat voor of tegen de stelling, en na afloop nog eens. De winnaar is degene die de meeste stemmen naar de andere kant heeft doen gaan. Natarajan won het demonstratiedebat, maar hij had ook de beste kansen want 87 procent van de mensen in het publiek stond vooraf al aan zijn kant. Natarajan zei na afloop dat hij onder de indruk was van Project Debater.

Om objectiever de effectiviteit van Project Debater vast te stellen hebben de onderzoekers aanvullend twee andere talige kunstmatige-intelligentietoepassingen en twee menselijke debaters een aantal betogen laten schrijven en die blind laten beoordelen door een menselijke jury. De scores van de menselijke speeches en die van Project Debater lagen volgens de onderzoekers dicht bij elkaar, en waren veel beter dan die van de andere talige systemen.

Project Debater is sinds 2012 in ontwikkeling. Eerder waren spellen geliefde toepassingen om de kunde van kunstmatige intelligentie te tonen. Debatteren is een uitdagender taak, schrijven de onderzoekers, omdat de mogelijke ‘zetten’ minder vastliggen en de winnaar minder duidelijk is.

Taalkundige fouten

„Het is een indrukwekkend systeem, zo wordt er ook over gedacht binnen het vakgebied van computationele argumentatie. Ik zag er eerder presentaties over op conferenties, dit is een van de drijvende krachten in het veld van argument mining”, reageert Henry Prakken, hoogleraar rechtsinformatica en juridische argumentatie aan de Rijksuniversiteit Groningen. „Maar dit artikel is teleurstellend. Ik had gehoopt op een uitgebreidere wetenschappelijke evaluatie.”

„De vraag over hoe je de prestaties van dit soort kunstmatige-intelligentietoepassingen evalueert is een hot topic”, vult Kees van Deemter aan, hoogleraar natuurlijke taalverwerking aan de Universiteit Utrecht. „Hoe ze evalueerden blijft hier heel algemeen. Ik weet nu niet of de evaluatoren iets moesten zeggen over taalkundige fouten of over coherentie. Misschien raak ik nog onder de indruk als ik de bijlagen bij dit onderzoek zie, maar nu ben ik dat nog niet.”

„Het artikel maakt me vooral benieuwd of het systeem nieuwe argumenten kan vinden voor of tegen een gegeven stelling”, zegt Van Deemter. „Die argumenten mogen dan natuurlijk niet al aanwezig zijn in het materiaal waarop het systeem getraind is.”

„Een systeem als dit kan interessant zijn voor juridische toepassingen”, zegt Prakken. „Denk aan kunstmatige sparringpartners voor advocaten om zwakke punten in hun betoog te vinden. Ethisch gezien is het dan wel van belang om inzicht te hebben uit welke bronnen het systeem precies de informatie haalt.”