Algoritmen verdienen ’n eerlijke kans

Kunstmatige intelligentie Steeds vaker nemen computers beslissingen over mensen. Dat kan goed en fout gaan. Hoe combineer je de sterke punten van algoritmen met die van mensen?

In oktober 2018 besloot het bedrijf Amazon te stoppen met het gebruik van een algoritme voor het inhuren van personeel. Het algoritme bleek vrouwen stelselmatig te benadelen ten opzichte van mannen. Dit is slechts een van de vele voorbeelden uit de afgelopen jaren waarin algoritmen bleken te discrimineren bij beslissingen over mensen.

Algoritmen, de ‘rekenrecepten’ die een computer gebruikt, nemen steeds vaker beslissingen over mensen. In de zorg, bij de overheid, in het onderwijs of bij banken en verzekeraars. En dat raakt aan de menselijke autonomie. Wat willen we aan machines overlaten, wat aan de mens?

De verontwaardiging over de discriminatie door het Amazon-algoritme was vorig jaar groot. Begrijpelijk, maar ook kortzichtig, vindt Sendhil Mullainathan, hoogleraar informatica en gedragswetenschappen aan de universiteit van Chicago en een expert op het gebied van algoritmische beslissingen. „Een algoritme is niet alleen maar een stuk gereedschap”, zegt hij in een Skype-interview. „Het is ook een beetje als een geigerteller. Als je rondloopt met een geigerteller en hij begint ergens hard te tikken, dan moet je de teller niet de schuld geven. Hij vertelt je dat er straling is. Iets soortgelijks geldt voor een algoritme.”

Bevooroordeelde functionarissen

De discriminatie door het Amazon-algoritme liet namelijk zien dat de Amazon-personeelsfunctionarissen jarenlang bevooroordeeld zijn geweest tegenover vrouwen. Want met hun oordelen was het algoritme getraind, zegt Mullainathan. „Telkens als een algoritme bevooroordeelde uitkomsten blijkt te geven, moeten we ons natuurlijk zorgen maken over het algoritme, maar nog meer over hoe mensen zulke beslissingen nemen.”

Mullainathan, geboren in India, deed zelf begin deze eeuw een experiment naar discriminatie op de Amerikaanse arbeidsmarkt. Hij stuurde naar diverse bedrijven dezelfde sollicitatiebrieven. Alleen de namen van de sollicitanten verschilden. De ene groep had namen die afkomstig leken van ‘zwarte’ mensen. De andere groep had namen die afkomstig leken van ‘witte’ mensen. De tweede groep werd anderhalf keer zo vaak op gesprek gevraagd als de eerste groep. Een duidelijk voorbeeld van discriminatie, bewust of onbewust.

Algoritmen hebben managers nodig

Sendhil Mullainathan Hoogleraar informatica en gedragswetenschappen, Chicago

Omdat discriminatie door mensen zo hardnekkig is, was dit onderzoek voor Mullainathan aanleiding om te onderzoeken welke rol computers kunnen spelen in het nemen van eerlijkere beslissingen. In de afgelopen jaren heeft hij samen met collega’s onderzocht hoe algoritmen daaraan kunnen bijdragen. De belangrijkste conclusie is dat dat kan, maar alleen wanneer de mensen die algoritmen gebruiken veel beter begrijpen wat de sterke en zwakke punten van algoritmen zijn. „Algoritmen hebben managers nodig”, zegt Mullainathan. „Die managers moeten bijvoorbeeld begrijpen dat algoritmen hun opdracht extreem letterlijk nemen en geen oog hebben voor langetermijndoelen die niet expliciet zijn geprogrammeerd, maar die mensen vaak intuïtief wel meenemen.”

Zo zal een algoritme dat nieuwsberichten op sociale media alleen selecteert op basis van ‘likes’ al snel de meest extreme berichten naar voren schuiven. Mensen begrijpen intuïtief dat het eigenlijk zou moeten gaan om kwaliteit gemeten in ‘likes’ en niet om ‘likes’ ten koste van kwaliteit. Om dit op te lossen moet voor een algoritme een ‘zachte’ waarde als kwaliteit expliciet worden gemaakt. „Daar ligt vaak de kern van het probleem”, zegt Mullainathan, „want wat bedoelen we dan met kwaliteit? En wanneer we een algoritme gebruiken om de beste kandidaten voor een baan te selecteren, wat bedoelen we dan met ‘de beste’ kandidaten?”

Eerlijkheidsknoppen

Scherp kijken of het gebruikte label, zoals ‘likes’, ook echt een goede voorspeller is van de eigenschap die je wilt optimaliseren, zoals kwaliteit, is één oplossing om algoritmen eerlijker te maken. Een tweede oplossing klinkt tegen-intuïtief. Mullainathan: „Wanneer we willen dat algoritmen menselijke vooroordelen op basis van bijvoorbeeld gender, etniciteit of leeftijd eruit halen, dan moeten we die variabelen juist wél meenemen als invoervariabelen in de data. Bij menselijke beslissers zouden we dat juist niet doen. Allerlei onderzoek heeft inmiddels aangetoond dat algoritmen de menselijke bias dan netjes uit de data halen.”

Een derde oplossing is om eerlijkheidsknoppen in te bouwen in het algoritme. „Neem weer even het rekruteringsalgoritme van Amazon”, zegt Mullainathan. „Als we het eerlijk vinden dat mannen en vrouwen gelijk vertegenwoordigd zijn in de geselecteerde kandidaten, dan kunnen we het algoritme instrueren om de beslissingen over mannen en vrouwen te scheiden. Dan selecteert het bijvoorbeeld de top-5-procent van de mannelijke kandidaten en de top-5-procent van de vrouwelijke kandidaten. Op deze manier raak je de menselijke gendervooroordelen kwijt, terwijl je toch de kracht van het algoritme gebruikt om kandidaten automatisch te rangschikken. Via zulke eerlijkheidsknoppen kun je op allerlei terreinen de gewenste gelijkheid afdwingen.”

Nieuw ongemak

Dit soort ingrepen leidt echter al snel tot nieuw ongemak. Want ja, wie bepaalt dan de gewenste gelijkheid? Waar managers hoopten dat ze beslissingen konden objectiveren door ze uit te besteden aan informatici, blijken allerlei netelige sociale kwesties als een boemerang terug te keren. Toch denkt Mullainathan dat dit goed is: „De volgende grote golf die algoritmische beslissingen zullen veroorzaken, is dat ze ons dwingen om onze menselijke waarden en prioriteiten expliciet te maken. Wij mensen kunnen onze keuzes niet langer in onze geest verbergen. Ik denk dat de samenleving als geheel beter af is als we een gesprek hebben over onze waarden. Als Amazon zijn rekruteringsalgoritme afdankt en terugkeert naar alleen menselijke besluitvorming, dan vermindert het bedrijf zijn transparantie. Het zou beter zijn om van de gemaakte fouten te leren en een rechtvaardiger rekruteringsalgoritme te bouwen.”

De technische oplossingen die Mullainathan voorstelt zijn een stap in de goede richting, zegt Sander Klous, hoofd data & analytics bij accountant KPMG en hoogleraar bigdata-ecosystemen aan de Universiteit van Amsterdam. „Maar als het gaat om algoritmische beslissingen over burgers en consumenten, dan heeft vertrouwen weinig met de technische inhoud van het algoritme te maken. Als je een pak melk koopt, dan weet je ook niet hoe de verloopdatum is berekend. Je vertrouwt op je eigen ervaring met melk, op de reputatie van de winkel en op het merk van de fabrikant. Vertrouwen wekken in algoritmische beslissingen komt daarom uiteindelijk ook neer op ervaring, reputatie en merk.”

Complexe afwegingen

Roel Dobbe, postdoctoraal onderzoeker bij het AI Now Institute van de New York University, kent het onderzoek van Mullainathan en vindt het zeer interessant. „Ik ben het met hem eens dat algoritmische beslissingen de discussie over menselijke waarden aan het oppervlak brengen en dat dat op zich positief is. Maar ik maak me zorgen dat het makkelijk mis kan gaan omdat algoritmen bepaalde complexe afwegingen te simpel proberen op te lossen. Wat we onder ‘eerlijke oplossingen’ verstaan, zijn vaak waardengedreven maatschappelijke compromissen. Technische oplossingen zijn niet in staat iets te doen aan de onderliggende machtsstructuren, die bijvoorbeeld discriminatie veroorzaken.”

Dobbe vindt dat er momenteel te veel wordt gekeken naar de techniek, naar algoritmen en data, en te weinig naar hoe algoritmische beslissingen in de praktijk uitpakken. „In hoeverre dragen algoritmen er echt toe bij dat een organisatie discriminatie terugdringt of diversiteit bereikt? In plaats van te vragen ‘hoe stellen we algoritmes op de juiste manier in?’, moeten we vaker de vraag stellen ‘wat willen we in de praktijk bereiken?’ Ik maak me zorgen over het feit dat de wetenschap nog helemaal niet klaar is met het thema bias in algoritmische beslissingen, maar dat de industrie ondertussen wel al allerlei producten verkoopt.”

Kwestie van vertrouwen

Voor Sander Klous is een van de hoofdvragen hoe een samenleving algoritmische beslissingen leert vertrouwen. Bij KPMG werkt hij onder andere samen met de gemeente Amsterdam om het gebruik ervan te toetsen en burgers te beschermen tegen negatieve gevolgen. Klous: „KPMG helpt bij het ontwikkelen van het toetsingskader. Dat toetst algoritmen bijvoorbeeld op basis van hun doelstellingen, maar ook het databeleid, het uitvoeringsproces, de waarde van de uitkomsten en de bediening van het algoritme.”

De gemeente Amsterdam werkt onder meer met een algoritme dat op basis van natuurlijke taalverwerking klachten van burgers automatisch classificeert, prioriteert en toewijst aan de juiste afdeling – klachten als vuil op straat, of overlast van geluid of ongedierte. „Onze toetsing is operationeel”, zegt Klous. „Wat wij niet doen is het bepalen van de ethische uitgangspunten. Daarvoor werkt de gemeente samen met de Amerikaanse wiskundige Cathy O’Neil.” Zij werd bekend met haar boek Weapons of Math Destruction (2016), over de schaduwkanten van algoritmische beslissingen. Klous: „Op dit moment werken allerlei nationale en internationale partijen aan het opstellen van standaarden voor algoritmen. Pas wanneer er geaccepteerde standaarden in Nederland zijn, kunnen wij als KPMG een stempel van goedkeuring op een algoritme zetten. Nu doen we dat nog niet.”

Roel Dobbe doet zelf onderzoek naar de integratie van algoritmische beslissingen in kritieke maatschappelijke infrastructuur. Hij is sceptisch dat het optuigen van een nieuwe industrie, die stempels van goedkeuring op algoritmen gaat zetten, de onderliggende problemen oplost. „Op het terrein van privacy is dat ook geprobeerd: marktpartijen die certificaten ontwikkelen. Maar als je kijkt naar de huidige privacy-problemen bij Facebook moet je concluderen dat die aanpak helemaal niet heeft gewerkt. De vrije markt heeft het privacy-probleem niet opgelost. En ik ben pessimistisch dat het wel gaat werken bij algoritmische beslissingen.”

Zelfrijdende auto

Wat volgens Klous de komende jaren belangrijk wordt, is verwachtingsmanagement. „Het is onzin om te zeggen dat algoritmen geen fouten zullen maken. De vraag is: hoe goed willen we dat algoritmen zijn? Hoeveel beter dan mensen moeten ze zijn voor we ze accepteren? In de VS vallen jaarlijks 40.000 doden door auto-ongelukken. Stel dat de zelfrijdende auto dat reduceert tot 20.000. Dan kun je zeggen dat de zelfrijdende auto 20.000 doden heeft voorkomen, maar je kunt ook zeggen dat de zelfrijdende auto 20.000 doden heeft veroorzaakt. Het is allebei waar. Op veel terreinen kunnen algoritmen menselijke fouten of menselijke bias reduceren, maar uiteindelijk is het aan de maatschappij om te bepalen wat ze wel of niet accepteert.”

Als er iemand veel weet over zowel algoritmische als menselijke beslissingen, dan is het psycholoog Daniel Kahneman. In 2002 won hij de Nobelprijs economie voor zijn werk op het terrein van menselijke beslissingen. Hij werd wereldberoemd met zijn boek Thinking, Fast and Slow (Ons feilbare denken, 2011) waarin hij allerlei soorten cognitieve bias bij menselijke beslissingen analyseert. In een interview uit 2018 met MIT-hoogleraar Erik Brynjolfsson antwoordde hij op de vraag of het grootste risico op bias in mensen of in machines zit: „Het is vrij duidelijk dat het grootste risico in menselijke bias zit. Algoritmische beslissingen kun je veel beter analyseren dan menselijke beslissingen.”

Het is een ongemakkelijke boodschap, maar misschien moeten we algoritmen wat minder discrimineren en op zijn minst een eerlijke kans geven. Sander Klous denkt dat we in de komende tien jaar de discussie over algoritmische beslissingen volwassen zullen zien worden: „Natuurlijk zullen er incidenten ontstaan. Uiteindelijk komen die bij rechters terecht. Die gaan jurisprudentie ontwikkelen. De politiek en de burger gaan daar iets van vinden. En zo ontstaat langzaam een beeld van wat wij als maatschappij willen.”