U gaat frauderen. Dat zegt de computer

Gemeenten gebruiken data over hun inwoners om problemen op te sporen voor ze uit de hand lopen. Handig! Maar voor de burger stijgt de kans te worden afgerekend op voorspeld gedrag.

Het stadsdeel Amsterdam-Zuid begon z’n grip op overlastgevende hangjongeren te verliezen. De gemeente had weinig zicht op de jongeren van de ‘Vondelgroep’ en de ‘Sarphatigroep’ – vernoemd naar stadsparken waar ze rondhingen. Dat moest veranderen.

Eind 2015 kreeg een databedrijfje uit Utrecht de opdracht het online netwerk van de bij buurtwerkers bekende hangjongeren te „verkennen” via Facebook. Het bedrijf vond 126 openbare vriendenlijsten van hangjongeren, waar in totaal 64.540 verschillende personen op voorkwamen. Na het wegstrepen van iedereen met minder dan zes onderlinge verbindingen bleven er ruim twaalfhonderd mensen over. Zij werden ieder een bolletje op een kaart. Als het bekenden van de buurtwerkers waren, kregen ze een kleurtje, afhankelijk van het park waar ze hingen. Onbekenden werden een grijs bolletje. Hoe meer onderlinge connecties de jongere had, hoe groter zijn bolletje in het spinnenweb.

Ambtenaren zagen nu dingen die op straat onzichtbaar bleven: bijvoorbeeld dat de overlastgevers ook verbonden waren met hanggroepen buiten het stadsdeel, of dat individuele jongeren een andere rol leken te hebben binnen de groep dan buurtwerkers dachten.

Amsterdam is niet de enige stad die experimenteert met datagedreven beleid. Op bijna alle terreinen waar gemeenten iets over te zeggen hebben – zorg, werkgelegenheid, veiligheid en openbare orde, infrastructuur – wordt geprobeerd met data het onbekende in kaart te brengen of voorspellingen te doen, blijkt uit een rondgang van NRC.

Soms zijn die datatoepassingen eenvoudig. Vuilniswagens zijn zo duur dat Utrecht precies wilde weten wanneer ze aan vervanging toe zijn. De gemeente gebruikt data over het type voertuig, het takenpakket van de wagen en het soort brandstof om dat te voorspellen. De aanschafprocedure duurt een jaar, weten wanneer je moet bestellen scheelt de gemeente jaarlijks zo’n vier ton belastinggeld. Heerhugowaard bepaalt met een computermodel wanneer ze elk van haar 30.000 ‘straatkolken’ moet schoonzuigen – met bijvoorbeeld gegevens over de afstand tussen bladerrijke bomen en kolken, en hoe vol de zuigwagens uit bepaalde wijken terugkomen.

Maar niet alle data zijn zo ‘onschuldig’ als de locatie van een boom. Veel gemeenten gebruiken ook data over mensen, inkomens en gedrag. Het vergrijzende Kerkrade wil een poging doen te voorspellen in welke straten de meeste kans is op eenzaamheid en depressies. In Almere, Dordrecht en Zwijndrecht wijzen computers op basis van gegevens over inkomen, werkloosheid, bijstand, eenoudergezinnen, vroegtijdig schoolverlaters, 65-plussers en koopkracht straten aan waar risico bestaat op ‘leefbaarheidsproblemen’. Zevenhonderd huizen in Almere krijgen zo het predicaat ‘verhoogd risico op armoede’. De computer draagt ook straten aan waar de bewoners duidelijk te veel verdienen voor geldproblemen. Die worden er door een wijkhulpteam en de wijkagent uitgefilterd. In de overige straten krijgen bewoners hulpverleners aan de deur, gewapend met folders over subsidies en instanties. „Is er iets wat ik voor u kan doen?” vragen ze. De bewoner krijgt niet te horen dat een computer zijn straat aanwees; de vrijwilliger aan de deur weet niet waarom de computer deze adressen koos.

In Dordrecht bepaalt een algoritme welke spijbelaar slechts een waarschuwende brief krijgt, en bij wie leerplichtambtenaren binnen een week op de stoep staan – iedere spijbelaar bezoeken is te duur. De computer gebruikt dertien variabelen, zoals onderwijsniveau, postcode van de school en hoe vaak iemand van school wisselde.

Het is objectiever dan de leerlingen uitkiezen op een onderbuikgevoel

Hoe zwaar elke variabele weegt, en waarom, weten de betrokken ambtenaren niet. „Het is een soort beslisboom, door een computer gemaakt”, zegt een betrokkene. „Voor een mens te ingewikkeld om te doorgronden.” De dienst is blij met de aanpak. „Het is objectiever dan de leerlingen uitkiezen op een onderbuikgevoel.” Tientallen leerlingen kregen dit schooljaar een leerplichtambtenaar op bezoek, nadat het model naar hen wees. Honderden spijbelaars kregen slechts een brief.

De aantrekkingskracht van zulke computermodellen voor gemeenten is evident. Door slim datagebruik kunnen gemeenten hun werk gerichter en voor minder geld doen, zo is de belofte. Ze kunnen problemen opsporen voordat ze uit de hand lopen. Wie wil dat niet?

Data zijn er bovendien in overvloed. Niet alleen bij de gemeenten zelf, ook op sociale media waar burgers allerlei privégegevens etaleren, zoals hun interesses op Facebook of meningen op Twitter. En elders op internet. De gemeente Amsterdam kopieerde door Google verzamelde informatie over drukte in winkels en horeca. Google krijgt die info via locatiedata van mobieltjes.

Zolang je de privacy van burgers garandeert, en transparant bent over hoe je data gebruikt, hoeven burgers zich geen zorgen te maken, zeggen gemeenteambtenaren. En trouwens, misschien klagen die in de toekomst wel over het omgekeerde: dat gemeenten juist niet genoeg doen met de data die ze hebben.

Privacy betekent in de praktijk vooral: zorgen dat je de individuele gegevens die je gebruikt anonimiseert, en dat je verbanden die de computer legt alleen op groepsniveau toepast. Je wijst dus niet met de computer de man aan die een verhoogde kans heeft op schulden, maar de straat waar een grotere kans is op geldproblemen, zoals blijkt uit geanonimiseerde individuele gegevens van burgers.

Is die privacy voor burgers een heet hangijzer? Ger Baron, die als Chief Technology Officer bij de gemeente Amsterdam experimenten met digitale technologie overziet, betwijfelt dat. In 2015 experimenteerde de stad tijdens het massa-evenement Sail met digitale crowd control. Telcamera’s brachten voetgangersstromen in beeld. Wifi-sensoren peilden voorbijkomende mobieltjes en konden zo bijhouden hoe snel bezoekers zich voortbewogen en waar ze bleven hangen. Via sociale media als Twitter en Instagram werd de sfeer in de gaten gehouden. Tegelijk had de stad een voorlichtingscampagne bedacht: billboards in de hele stad nodigden mensen uit te bellen als ze vragen hadden over de elektronische crowd control. Baron: „We kregen nul telefoontjes, nul!”

Er is ook weinig ophef over Syri, een afkorting van Systeem Risico Indicatie. Dit computermodel – toen het nog zonder wettelijke grondslag werd gebruikt heette het Black Box – van het ministerie van Sociale Zaken en Werkgelegenheid wijst adressen aan waarop bewoners zich schuldig zouden kunnen maken aan belasting- of premiefraude. Nu of in de toekomst. Verdachte huishoudens die uit het systeem rollen worden verder onderzocht om bewijsmateriaal te verzamelen.

Het is lastig gegevens te bedenken die niet voor Syri kunnen worden gebruikt

Overheidsorganisaties als het UWV, de Sociale Verzekeringsbank en de Belastingdienst maar ook gemeenten mogen grote bestanden met gegevens bij elkaar vegen en er algoritmen op loslaten om potentiële fraudeurs te vinden. Het is lastig gegevens te bedenken die niet voor Syri kunnen worden gebruikt. Onderwijsgegevens, detentiegegevens, vergunningen, zorgverzekeringsgegevens en uitkeringsgegevens zijn een kleine greep.

Syri zocht naar fraude in twee Eindhovense wijken en naar illegale bewoners op het bedrijventerrein De Greefstraat. In Capelle aan den IJssel werden door Syri gevonden adressen verstrekt aan een ‘eropaf-team’, dat huishoudens „helpt uit de problemen te komen”.

Verdachte huishoudens

Binnenkort gaat Syri in de wijken Bloemhof en Hillesluis in Rotterdam en Schalkwijk in Haarlem weer iets onderzoeken. Wát dat is, wil Sociale Zaken niet zeggen: „Dan zouden we de werkwijze van onze handhaving vrijgeven.” Het ministerie zwijgt ook over hoe het systeem burgers aanwijst. De modellen moeten geheim blijven, juist omdat de overheid ze gebruikt voor de opsporing en vervolging van strafbare feiten.

Maxim Februari, filosoof en columnist van NRC, vindt dat kwalijk. „Een belangrijk principe van de rechtsstaat is dat burgers weten welke regels er zijn. Zo kunnen ze zich er ook tegen verweren, bijvoorbeeld door ze met een rechtszaak of met nieuwe wetgeving te veranderen.”

Februari probeerde met een groep privacyorganisaties en het Nederlands Juristen Comité voor de mensenrechten te achterhalen hoe Syri kiest welke huishoudens verdacht zijn. Ze deden een beroep op de Wet openbaarheid van bestuur, waarmee burgers de overheid kunnen dwingen informatie openbaar te maken. Tevergeefs. Nu hebben ze de Staat voor de rechter gedaagd.

Daarbij kunnen ze het Rijk met haar eigen woorden confronteren. Staatssecretaris Raymond Knops (Binnenlandse Zaken, CDA) schreef in maart een brief aan de Tweede Kamer waarin juist stond dat bezorgde burgers „in principe om de openbaarmaking van computerinstructies moeten kunnen vragen” met dezelfde Wet openbaarheid van bestuur. Bestuursorganen moeten, aldus Knops, computerbesluiten die ze gebruiken „op een passende manier motiveren, door bijvoorbeeld de keuzes, gegevens en aannames achter een besluit te onderbouwen”.

Dat is in lijn met strengere privacyregels die vanaf eind mei gelden, gebaseerd op een Europese verordening. Door deze regels hoeven overheden en bedrijven niet meer aan de toezichthouder te melden als ze persoonsgegevens ‘verwerken’. Dat is ouderwets, zegt Aleid Wolfsen, voormalig burgemeester van Utrecht en nu de baas van de Autoriteit Persoonsgegevens die toezicht houdt op privacyregels: „Iedereen gebruikt data.” Daar staat tegenover dat overheden en bedrijven wel duidelijk moeten laten weten hoe persoonsgegevens precies worden gebruikt. Dus: meer recht op informatie.

Onbereikbaar ideaal

Deze transparantie – het nieuwe toverwoord – stelt burgers in staat te controleren en corrigeren wat – in dit geval – ambtenaren allemaal met hun data doen. Althans, dat is het idee. Transparantie is vaak een onbereikbaar ideaal. In de eerste plaats organisatorisch. Bij een rondgang langs gemeenten valt op dat het lastig is voor lokale overheden om een overzicht te geven van datatechnologieën. Vaak weet de ene afdeling van de gemeente niet wat de andere doet; een centraal overzicht is er ook niet.

Ook de gebruikte techniek maakt transparantie vaak illusoir. Maar weinig mensen die een algoritme bestuderen, begrijpen wat ze zien. Hoe meer verschillende soorten data een computer verwerkt in zijn berekeningen, hoe moeilijker die berekening te begrijpen is. En een computermodel werkt vaak beter naarmate er meer variabelen worden gebruikt – vaak tientallen, soms zelfs honderden. Een mens is dan al gauw de draad kwijt.

Maar weinig mensen die een algoritme bestuderen, begrijpen wat ze zien

Verder ‘meten’ computers vaak geen causaliteit, maar correlatie: het tegelijk voorkomen van twee of meer dingen. Als dat maar vaak genoeg gebeurt, neemt de computer aan dat er een relatie is. Die relatie wordt belangrijk gevonden en meegenomen in de berekening. Of die relatie er is, en hoe die relatie is veroorzaakt, interesseert de computer niet. Een mens heeft die informatie juist nodig om het algoritme te begrijpen. Kortom, als de burger vraagt: „Waarom denkt u dat mijn dochter een schoolverlater wordt?” is het lastig een ander antwoord te geven dan „dat zei de computer”.

Fouten rechtzetten

Marlies van Eck deed promotieonderzoek naar computers bij de overheid die automatische besluiten nemen, bijvoorbeeld over de hoogte van toeslagen of de AOW-uitkering. Deze computerbesluiten worden niet meer door mensen gecontroleerd. Burgers kunnen ze alleen via de rechter proberen terug te draaien. Het probleem is dat de computercode die de besluiten neemt nauwelijks te doorgronden valt, concludeert Van Eck. Dat maakt het bijna onmogelijk om te onderzoeken hoe het besluit tot stand komt. En dus voor rechters om de rechtmatigheid ervan te toetsen.

Soms is er zelfs geen illusie meer van transparantie. Het kostte NRC veel moeite om het Amsterdamse stadsdeel over te halen wat uitleg te geven over de Facebookprofilering van risicojongeren. De jongeren wier vriendennetwerken in kaart zijn gebracht, noch die vrienden, zijn hier ooit door de gemeente over geïnformeerd. Op de vraag waarom in de analyse bijna duizend mensen zijn opgenomen die niet bekendstaan als probleemjongeren, weet de gemeente geen duidelijk antwoord te geven.

Een probleem van het leunen op data-analyses zoals in Amsterdam is dat de werkelijke kennis van het systeem over mensen veel kleiner is dan het lijkt. Niet alleen vanwege de onvolledigheid van data, ook omdat de voorkeuren van mensen niet in alle gevallen overeenkomen met de keuzes die ze maken. „Zoals je Facebookprofiel ook geen een-op-eenafspiegeling van jezelf is”, zegt Februari. En omdat je verleden (de data) niet hetzelfde is als de toekomst (de voorspelling).

Een vergelijkbare trend speelt in de zorg. Lees: De computer berekent hoe ziek je wordt

Van Eck vreest dat computervoorspellingen door hun schijn van objectiviteit steeds onaantastbaarder worden, terwijl er zeker fouten in zitten. Zo werden er mensen onterecht voor een gesprek naar de Immigratie- en Naturalisatiedienst gestuurd omdat ze naar Nederland verhuisden, maar nog niet geregistreerd stonden bij de dienst. Een algoritme had naar hen gewezen als potentiële illegalen, maar niet meegewogen dat EU-burgers vrij mogen verhuizen binnen de EU. „Niet alles wat relevant is, is vastgelegd in een database”, zegt Van Eck. „Computercode kijkt vaak naar één wet, terwijl het juridische kader altijd uit tientallen wetten bestaat.”

Het rechtzetten van fouten in zulke algoritmen blijkt moeizaam. De overheid gaat volgens onderzoekster Van Eck zelfs tot het uiterste om het aanpassen van geautomatiseerde procedures te voorkomen. Dat kost namelijk veel geld. Ze noemt het geval van een man die zich verzette tegen een door de Belastingdienst opgelegde heffingsrente (rente die je moet betalen als je bij je voorlopige belastingaanslag te weinig hebt betaald). Deze rente was door een computer berekend.

Maar, zo vertelt Van Eck, het programma negeerde een toezegging van de minister. Namelijk dat er geen rente mag worden geheven over een belastingschuld die te wijten is aan traagheid van de Belastingdienst. Het ging in deze zaak maar om een bedrag van 76 euro. Toch procedeerde de Belastingdienst tot aan de Hoge Raad om te voorkomen dat dit bedrag moest worden terugbetaald. Tevergeefs.

Glazen bol

Het koppelen van allerlei data biedt voordelen voor gemeenten en burgers. Meer inzichten, meer efficiëntie, iets dat vanuit de verte lijkt op een glazen bol. Tegelijkertijd zijn er valkuilen. Er kunnen fouten in de data zitten, de data kunnen vooroordelen weerspiegelen, de computer kan uit correcte data verkeerde conclusies trekken.

En er is nog een probleem waar bijna niemand over nadenkt die met deze algoritmen werkt, stelt Februari. Traditioneel gezien reageert een overheid op handelingen van burgers. Als je iets doet, kan de overheid ingrijpen: met een subsidie, een boete, een celstraf, het plaatsen van een prullenbak, noem maar op.

Maar het doel van het analyseren van grote datastromen is vaak het voorspellen van gedrag, zodat de overheid kan ingrijpen vóór een burger handelt. Precies daar ligt het probleem, zegt Februari. Niet wat iemand doet bepaalt dan zijn relatie met de overheid, maar een voorspelling over wat hij van plan is. Een overheid die burgers bijstuurt op basis van voorspeld gedrag, vreest Februari, ontneemt burgers uiteindelijk hun vrijheid.