Datasporen: zoek het patroon

Sinds onthullingen door Edward Snowden over Amerikaanse afluisterpraktijken is duidelijk: de overheid heeft toegang tot veel van onze data. Maar hoe halen geheime diensten er bruikbare informatie uit in hun jacht op criminelen of radicalen? Het begint met het stellen van de juiste vraag en het ontdekken van patronen.

Illustratie Yassine Salihine

Ben je aan het radicaliseren, of juist aan het vereenzamen? Heb je ruzie? Maak je carrière? Raak je geïnteresseerd in het Midden-Oosten? Verhuizen je vrienden één voor één naar het buitenland?

In alle gegevens die van je rondzwerven, zitten allerlei patronen die veel over je zeggen. Die patronen zijn interessant voor inlichtingendiensten die terroristen moeten vinden, voor opsporingsdiensten die op criminelen jagen, forensische diensten die sporen blootleggen.

Sinds de onthullingen van Edward Snowden weten we: overheidsdiensten neuzen in heel veel van onze gegevens. Maar hoe vis je daar die interessante patronen uit? Hoe vind je de speld in de hooiberg?

Les één: wie een terrorist wil vinden, zoekt niet op het woord ‘aanslag’. Je moet eerst bedenken welke patronen je precies zoekt. Zomaar een berg data analyseren slaat nergens op.

Aan het woord is Maarten de Rijke, hoogleraar informatieverwerking en internet aan de Universiteit van Amsterdam. Hij doet onderzoek naar zoekmachinetechnologie. De zoekalgoritmen die grote bedrijven als Google gebruiken om de juiste websites te vinden, lijken behoorlijk op de algoritmen die inlichtingendiensten loslaten op hun verzamelde data, zegt hij. En „ongetwijfeld” werken ze samen.

Net als bij Google gaat het een inlichtingendienst niet om het vinden van één resultaat (zeg: die ene terrorist), maar om het vinden van allerlei potentieel gevaarlijke mensen en organisaties. Google vindt de juiste site door duizenden kenmerken te wegen. Wat staat er in het document, waar is het naar gelinkt, wie is de auteur? Welke plaatjes staan erbij? Zo werkt het ook in de jacht op mensen. Maar naar welke kenmerken kijk je dan?

Met enkel ‘metadata’ – wie mailt of belt wie op welk moment – kom je al heel veel te weten over gedrag, zegt De Rijke. „Je kunt zien wie er contact heeft met mensen die je al in de gaten houdt en wie opeens centraal komt te staan in het berichtenverkeer. Je kunt zien of de berichten komen uit een internetcafé waar al eerder interessante dingen zijn gebeurd, of dat er opeens veel verkeer is uit een bepaald land.”

Vergelijk het met hoe banken in de gaten houden of je creditcardnummer gestolen is. Als je af en toe naar het buitenland gaat, is dat geen probleem. Maar als je creditcard opeens twee levens gaat leiden – betalingen in Azië én in Europa – dan gaat er iets mis. Computerprogramma’s zijn getraind om zulke patronen te herkennen.

Blijkt iemand interessant genoeg, dan kun je ook de e-mails en berichten van die persoon of groep analyseren –wat meer rekenkracht kost. Cruciaal daarbij zijn de veranderingen, zegt De Rijke, „van onderwerpen en van gedrag”.

Hij geeft een voorbeeld: „We kennen uit sociaal onderzoek allerlei patronen van radicalisering. Eén patroon is dat mensen zich een tijd lang met steeds meer onderwerpen bemoeien, met steeds meer mensen.” Dat kan natuurlijk, je gaat studeren en wordt actief op politieke fora en in chats. „Maar dan slaat het om, en gaat het over één onderwerp dat met een kleine groep wordt gedeeld. Bijvoorbeeld een groepje van zes volgelingen.” Verdacht.

Nu heb je voor dit soort geavanceerde analyses twee zaken nodig: veel data over langere tijd én een idee van welke patronen je zoekt. Dat laatste is moeilijk. Er zijn simpelweg niet zo veel terroristische aanslagen of criminele bendes om als voorbeeld te dienen. Google kan weleens wat proberen en uit miljoenen clicks opmaken wat mensen als ‘het beste resultaat’ beschouwen. Dat kan het bedrijf weer gebruiken om hun algoritmen beter te maken. Maar dat werkt niet bij zeldzame aanslagen. Daarvoor heb je kennis van de straat nodig. Kennis over hoe radicalisering werkt, hoe criminelen opereren, wat terroristen doen.

„Voor het begrijpen van big data heb je ook little data nodig”, zegt De Rijke. „Kennis van wát je zoekt. Het begint altijd met het stellen van een goede vraag.”

De juiste vraag, dat is ook de crux op de afdeling digitale technologie van het Nederlands Forensisch Instituut. Het NFI doet geen opsporingswerk, het werkt alleen met de data en onderzoeksvragen die het aangeleverd krijgt door het Openbaar Ministerie, de politie of een advocaat. Maar ook dat kunnen terabytes data zijn.

Aan tafel Erwin van Eijk en Menno Israël. Van Eijk is forensisch onderzoeker, Israël teamleider Kecida, het ‘kennis- en expertisecentrum voor intelligente data-analyse’. Deze afdeling moet uit bergen data reconstrueren wie sleutelfiguren zijn in een kinderpornozaak, hoe de financiële fraude binnen een groot concern is verlopen, wie in het netwerk van een crimineel zitten. Het NFI ontwikkelt daarvoor zelf slimme analysesoftware, die diep verborgen patronen naar boven haalt. Zoals: wie zit er achter deze schuilnaam? Israël: „Daarvoor moet je kijken welke schrijfstijl iemand hanteert. Sommige mensen hebben een voorkeur voor bepaalde woordfamilies. Ze maken dezelfde taalfouten of gebruiken steevast een voorzetsel verkeerd.”

Of: welke codetaal wordt hier gebruikt? „Je kunt algoritmes ontwikkelen die kijken naar verrassend taalgebruik. Als mensen ‘pepernoten’ zeggen in plaats van ‘xtc-pillen’, dan is dat toch vaak raar in een bepaalde context.” Buiten Sinterklaas eten weinig mensen pepernoten in de club. Het NFI maakt daarvoor gebruik van zelflerende algoritmen en woordfrequentielijsten van taalinstituten.

Of: hoe zit het sociale netwerk in elkaar? „Kijk je er alleen statistisch naar, dan denk je: degene die het meest praat, is het belangrijkst. Maar dat is niet per se zo. Een woordvoerder zegt het meeste, maar is niet de baas in een bedrijf. Directief taalgebruik zegt waarschijnlijk veel meer.”

Soms staan bij het NFI honderd in beslag genomen computers in een kamertje. Honderd dozen vol data. Een trefwoord opzoeken in die brij kan zomaar 10.000 hits opleveren. Daar heb je niks aan. Het is dus zaak om zo snel mogelijk te wieden, zegt Van Eijk. Reconstrueren van wie welke computer was, welk soort documenten er wel en niet toe doen.

Hoe gaat dat? Een fictief voorbeeld: een omvangrijke bedrijfsfraudezaak. De forensisch experts van het NFI brengen met behulp van een zelfgemaakt programmaatje de normale factuurstromen in het bedrijf in kaart, aan de hand van factuurnummers die ze vinden op de computers. Dus: postkamer, administratie, accountant, administratie. Dan blijkt dat er een stroom is die afwijkt: postkamer, administratie, accountant, directeur, accountant. Maar dat zijn, bij nader inzien, de facturen boven 10.000 euro, normaal dat die langs de directeur gaan. Tot de onderzoekers een heel dun lijntje zien tussen de accountant en de directeur, dat daarna, poef, weg is. „En dáár zit de fraude.”

Het gaat erom dat je big data reduceert tot patronen, zeggen ze, het liefst visuele patronen. „Want die kunnen mensen wel goed analyseren.” Uiteindelijk doen die het werk.

Nu moet je voor het analyseren van patronen wel patronen hebben. En dus actie, beweging, mails, telefoontjes. Als die er niet zijn, valt er niks te analyseren. En daarom zijn de lone wolves zo moeilijk te grijpen, zegt hoogleraar Maarten de Rijke. Iemand die een Suzuki Swift koopt en verder met niemand over een aanslag praat, zal niet opduiken in de hooiberg.