Hoe controleert de gemeente of jij fraudeert?

De Formule Ze tellen nog steeds de tandenborstels op de wastafel, op zoek naar fraudeurs. Maar sociaal rechercheurs zetten ook algoritmes in tegen uitkeringsfraude.

Illustratie Midas van Son

Stiekem samenwonen, bijverdiensten verzwijgen… Al sjoemelt maar een klein deel van de uitkeringsgerechtigden, bijstandsfraude kan een stad miljoenen euro’s kosten.

Drie Nederlandse gemeenten testen momenteel of ze met behulp van machine learning – software die getraind wordt met data – de pakkans kunnen vergroten. Ze werken samen met Totta data lab (Totta is Fins voor ‘waarheid’), een bedrijf dat met data menselijk gedrag voorspelt. Bijvoorbeeld om bij telecombedrijven of energiebedrijven in te schatten welke klanten hun abonnement gaan opzeggen.

Enkele Nederlandse gemeenten (Lekstroom in Utrecht, Middelburg, Veere en Vlissingen in Zeeland en Nissewaard in Zuid-Holland) gebruiken data-analyse om te bepalen welke verdachten ze gaan onderzoeken. Een algoritme wijst de tien meest waarschijnlijke fraudegevallen aan, daarna gaan controleurs aan de slag om te bepalen of er ook echt gefraudeerd is.

Zeer gevoelig

Zulke geautomatiseerde voorspellingen liggen zeer gevoelig. De computer kan niet zomaar besluiten of een uitkering gestopt moeten worden – daar hoort een menselijke beoordeling tussen te zitten. De nieuwe Europese privacywet stelt daarom strenge eisen aan de data die gebruikt mogen worden voor zulke profilering.

Data-specialist Jesse Luk legt uit hoe het ‘hybride voorspelmodel’ werkt: „We trainen software op data van geregistreerde fraudegevallen – personen die betrapt zijn. Het algoritme brengt bijbehorende datapatronen in kaart. Daarnaast gebruiken we anomaliedetectie: we zoeken in de rest van de data naar mensen die een grote afwijking hebben ten opzichte van het gemiddelde. De aanname is dat iemand die erg afwijkt, ook een fraudeur is.” Het levert twee risicoscores op, waaruit een lijst van mogelijke fraudegevallen rolt.

Hoe accuraat is de computer? Van de honderd mogelijke fraudeurs die het model aanwijst, wordt bij de helft inderdaad fraude vastgesteld. Daarbij zitten ook gevallen die de gemeenten al ontdekt hadden. De toegevoegde waarde schat Luk op 25 tot 30 procent. Dat kan in werkelijkheid hoger zijn; in de helft bij wie geen fraude kon worden aangetoond, kunnen immers toch fraudeurs zitten.

Van de honderd mogelijke fraudeurs die het model aanwijst, wordt bij de helft inderdaad fraude vastgesteld

Niet alle data tellen mee

Data waarop het algoritme zich baseert, zijn afkomstig van de sociale diensten. Namen zijn vervangen door anonieme cliëntnummers, het adres telt niet mee. Wel geboortedata, gezinssamenstelling, afgedragen premies en uitkeringsverleden. In de database zitten ook gegevens van Belastingdienst, kadaster en RDW.

De Europese privacywetgeving staat geen geautomatiseerde besluiten toe op basis van profileren als de uitkomst ‘rechtsgevolg’ heeft voor personen. Er moet altijd een menselijke hand tussen zitten – in dit geval (voor-)onderzoek van sociale rechercheurs. Persoonlijke gegevens mogen niet verwerkt worden op een manier die onverenigbaar is met de doeleinden waarvoor ze zijn verkregen, volgens de Wet Bescherming Persoonsgegevens.

Veel data zijn verboden terrein. ‘Bijzondere persoonsgegevens’ als medisch verleden of etniciteit (afkomst/ cultuur) tellen niet mee. De top-10 van verdachten zou wel veel mensen met één bepaalde afkomst op kunnen leveren. „Dat komt dan omdat ze aan andere kenmerken voldoen”, aldus Luk.

Of je in het verleden in de gevangenis of een psychiatrische inrichting zat, en dus elders kost en inwoning kreeg, is ook een voorspeller voor (onbewuste) fraude. Maar deze gegevens worden niet meegenomen. Het fraude-algoritme kijkt ook niet naar waterverbruik, energierekening, bankafschriften of trein- en busritten. Zulke data kunnen wel bij handmatig onderzoek door de sociale dienst gebruikt worden. Rechercheurs mogen sociale media controleren en kijken of je op Marktplaats alwéér een scooter verkoopt. En ze gaan op huisbezoek.

Wat is een algoritme eigenlijk? In deze animatie leggen we het uit.

Tandenborstels tellen

Het clichébeeld van de sociale recherche is dit die aanbelt om tandenborstels te komen tellen. „Posten en huisbezoeken horen er nog steeds bij”, zegt Gerrit van Romunde. Hij is de arbeidsmarktexpert van Stimulansz en adviseur bij dit project. „Wij proberen ervoor te zorgen dat je niet meer bij tien adressen tandenborstels hoeft te tellen.” Luk voegt toe: „En dat mensen die geen fraude plegen niet hoeft te storen.”

Sociaal rechercheurs beginnen vaak een onderzoek als ze vermoeden dat mensen samenwonen die als alleenstaande een uitkering krijgen. Sommige fraudeurs zijn niet zo handig: de ene partner geeft zich op als samenwonend, de andere niet. Dan is het logisch dat er iets niet klopt.De meeste fraudegevallen zijn complexer. De database bevat daarom twee- tot driehonderd variabelen waarin een mens geen verdachte patronen ziet, maar de computer wel.

Er is niet één recept voor fraude, blijkt op basis van de test met drie gemeenten. Tussen stad en platteland bestaan grote verschillen. Gerrit van Romunde: „De gemeenten waarmee wij werken zijn klein – 2.700 tot 3.500 uitkeringsgerechtigden. In kleine, christelijke gemeenten is vaak meer sociale controle.”

Luk zegt dat bij de ene gemeente meer fraude gevonden wordt bij mensen mét partner (die geven bijvoorbeeld inkomsten niet op), terwijl het in andere gaat het om mensen zónder partner (die geven niet op dat ze samenwonen). „Maar het kan ook zijn dat er alleen onderzocht is op die groep en dat wij daar ons algoritme op bouwen.”

Veel data zijn verboden terrein. ‘Bijzondere persoonsgegevens’ als medisch verleden of etniciteit tellen niet mee

Vooroordelen inperken

Zo kunnen ook oude (voor)oordelen in de huidige computermodellen doorgalmen. Als in het verleden veel onderzoek gedaan is naar bepaalde wijken of hotspots met veel fraude, kan dat reflecteren in het profiel van toekomstige verdachten. Luk: „Dit proberen we te voorkomen door anomaliedetectie toe te passen, zodat ook andere fraudegevallen naar voren komen. Uiteindelijk leert het algoritme van oude en nieuwe overtreders, en worden de vooroordelen zoveel mogelijk ingeperkt – zonder dat de pakkans lager wordt.”

Een algoritme zou dus kunnen voorkomen dat opsporingsambtenaren op basis van hun eigen intuïtie of ‘buikgevoel’ werken. Je kijkt met machine learning immers naar feitelijke gedragsdata.

Het algoritme houdt geen rekening met een fraudebedrag. Luk: „Wij bouwen een model op het hele bestand. Als je moet uitsplitsen op een paar gevallen, houd je te weinig cases over om betrouwbare berekeningen te maken.”

Er is nog een reden: „Het gaat om het rechtvaardigheidsgevoel, niet om hoeveel de gemeente eruit kan trekken”, zegt Gerrit van Romunde. „Ik verwacht als burger ook dat de politie mijn woninginbraak net zo serieus onderzoekt als die van een miljonair.”

Hoe algoritmes ons dagelijks leven bepalen

Ons leven wordt bestuurd door algoritmes, regeltjes achter de schermen. Deze wiskundige formules, gevoed door grote hoeveelheden data, sturen onze selectie van nieuws, entertainment en aankopen, vissen automatisch dieven en verdachten uit de massa. Lees de inleiding: Hoe algoritmes ons dagelijks leven sturen ›

Vervoer

Techbedrijven zijn dol op locatiedata en bewegings­gegevens, hoe gedetailleerder hoe beter. Zo ‘ziet’ Google hoe lang mensen op zoek zijn naar een parkeerplaats en leert Apple van je iPhone waar je werkt. Je kunt bewijzen dat je veilig rijdt en erop vertrouwen dat je om de file geleid wordt, of de snelste liftcabine voorgeschoteld krijgt. Maar welke algoritmes bepalen wat veilig is of wie er voorrang krijgt in de de file of in lift?

Lees ook:

  1. Hoe omzeilt TomTom de files?

  2. Hoe bepaalt de verzekeraar hoe veilig jij rijdt?

  3. Hoe bepaalt de lift wie voorrang krijgt?

  4. Hoe weet Google hoe lang je moet wachten?

Media

Kun je smaak in statistiek vatten? De grote streaming-diensten doen niet anders. Ze proberen een breed publiek inhoud op maat aan te bieden met behulp van algoritmes. Spotify en Netflix doen het door mensen met dezelfde voorkeuren te clusteren. Nieuwsdienst Blendle probeert er juist voor te zorgen dat je andere dingen ziet dan je zou verwachten. Apple laat personificatie grotendeels achterwege: Apple News is gebaseerd op locatie, niet of nauwelijks op je klikgedrag.

Lees ook:

  1. Hoe weet Netflix welke serie je wilt zien?

  2. Hoe weet Blendle wat jij wilt lezen?

  3. Hoe stelt Apple jouw nieuws samen?

  4. Waarom is dit het volgende liedje dat Spotify je laat horen?

Shoppen

Amazon is de webwinkel die groot werd met het doen van aanbevelingen op basis van wat anderen kochten. Wat zijn de trucs waarmee online winkels en reisbureaus je tot een aankoop verlokken? Achter de schermen wordt consumentengedrag in datapatronen gegoten, om beter in te schatten wat je wilt of hoe je te beïnvloeden bent. Ieder mens is uniek, maar bij elkaar zijn we toch redelijk voorspelbaar.

Lees ook:

  1. Hoe verleidt Booking.com je snel een hotelkamer te boeken?

  2. Hoe weet Bol.com wat je wilt kopen?

  3. Retargeting: hoe lang blijven mijn schoenen me achtervolgen?

  4. Hoe Facebook advertenties héél precies op maat maakt

Fraude

Algoritmes zijn bij uitstek geschikt om conclusies te trekken uit grote hoeveelheden data. Daardoor kunnen ze sneller ‘verdachte’ elementen opsporen, of het nou gaat om betalingsverkeer, uitkeringsgerechtigden of winkeldiefstal. De regels voor wat nou eigenlijk verdacht gedrag is, worden echter wel door mensen bepaald.

Lees ook:

  1. Hoe beschermt de bank je tegen oplichters?

  2. Hoe controleert de gemeente of jij fraudeert?

  3. Hoe bepaalt de zelfscankassa welke klanten gecontroleerd worden?

Naar aanleiding van deze productie organiseerde NRC op donderdag 12 april een avond in Pakhuis de Zwijger in Amsterdam. Terugkijken kan hier.

Redactie Marc Hijink en Eva de Valk, animatie Midas van Son, Harrison van der Vliet en Elze van Driel, illustraties Midas van Son, vorm Koen Smeets.