Merlijn Doomernik

Interview

‘Nederland heeft een lakse houding’

Wil van der Aalst

De pionier in data-analyse vertrekt naar Aken, waar hij miljoenen krijgt voor zijn onderzoek. „Nederland moet z’n best doen tophoogleraren te houden.”

Het begon met een algoritme van acht regels lang. Wil van der Aalst (51), hoogleraar informatiesystemen aan de TU in Eindhoven, schreef het rond de eeuwwisseling voor het eerst uit. De principes uit die formule bleken de basis van wat process mining ging heten, nu een vakgebied waar naar schatting 150 onderzoekers in actief zijn.

Van der Aalst is onlangs onderscheiden met de Humboldt-prijs, de hoogste Duitse wetenschapsprijs met 5 miljoen euro voor onderzoek en een speciale leerstoel bij de technische universiteit in Aken. Hij geldt als internationaal pionier rond de data-analyse van bedrijfsprocessen.

Process mining werkt zo: mensen die binnen een organisatie computersystemen gebruiken, laten sporen achter. Die grote hoeveelheden opgeslagen data worden geanalyseerd, om zichtbaar te maken hoe processen verlopen – om ze uiteindelijk efficiënter te kunnen maken.

Het internationale bedrijfsleven maakt er gretig gebruik van. Meer dan 25 bedrijven verkopen primair processminingsoftware en honderden bedrijven gebruiken het.

Merlijn Doomernik

Van der Aalst zag een carrière in de wetenschap niet aankomen. Begin jaren tachtig wilde hij na het vwo vooral snel rijk worden. Zijn oog viel op het opkomende IT-gebied en hij schreef zich in bij een hogeschool voor informatica. Ondanks mooie cijfers werd hij uitgeloot. Nadat hij in vier jaar zijn bachelor en master computerwetenschappen had voltooid, riep de dienstplicht. Om die te ontlopen, besloot hij te promoveren. Pas toen werd hij „gegrepen”, zegt hij.

Door wat werd u precies gegrepen?

„Door op conceptniveau diepere dingen te zien, die anderen niet zien. Waardoor je als het ware een luik opent naar een nieuwe wereld. Zo kun je uiteindelijk een flinke impact hebben op de maatschappij.”

U bent de vijftiende meest geciteerde computerwetenschapper ter wereld. De enige Nederlander in de top-250. Nu vertrekt u naar Aken.

„Het Nederlandse wetenschappelijk landschap is wat beperkend voor mensen die willen doorgroeien. Het gemiddelde niveau van universiteiten is goed, maar tegelijk zijn er geen echte topuniversiteiten in bepaalde vakgebieden, of grote verschillen tussen hoogleraarposities.

„Duitsland probeert wel actief toponderzoekers binnen te halen, zoals met deze prijs. Om te schetsen hoe anders dat gaat: er wordt nog onderhandeld over de details van mijn overgang. Zaken als het aantal medewerkers dat ik krijg, het aantal vierkante meter van mijn afdeling en zelfs de grootte van mijn kantoor worden contractueel vastgelegd.

„De technische universiteit in Aken heeft van de Duitse overheid extra geld gekregen voor onderzoek. Dat komt boven op de 5 miljoen die ik mag besteden. Het is de bedoeling dat die prijs een enorme impuls geeft aan alles wat daar al gebeurt op het gebied van dataonderzoek.”

Ergert u zich aan de Nederlandse computerwetenschapswereld?

„We hebben een situatie laten ontstaan waarin in Nederland bijna geen databasehoogleraren meer zijn. De impact van dataonderzoek is ontzettend groot: het raakt bedrijven en ons sociale leven. Ik vind dat Nederland een wat lakse houding heeft. De meeste software wordt in de VS gebouwd. Internetverkeer wordt vooral gegenereerd en gecontroleerd door Amerikaanse bedrijven. Die dominantie zie je ook in de wetenschap. Veel collega’s vinden het volstrekt normaal dat studenten datawetenschap leren door gratis online cursussen van bijvoorbeeld Stanford. We worden een soort derdewereldland als we er steeds van uitgaan dat andere landen het voor ons regelen.”

Veel collega’s vinden het volstrekt normaal dat studenten datawetenschap leren door gratis online cursussen

Waar zien we process mining terug in de wereld om ons heen?

„Een tastbaar voorbeeld is een luchthaven als Schiphol. Als je een koffer incheckt, gaat deze door een heel traject: scannen, controleren, opslaan en pas op het laatste moment naar het vliegtuig. Zo’n bagageafhandelingssysteem wordt verbeterd met process mining. Ander voorbeeld: vanuit het distributiecentrum van Albert Heijn wordt bij het inladen van vrachtwagens al rekening gehouden met wat op welke plek in de supermarkt komt te staan. Ik schat dat we process mining vanuit mijn leerstoel hebben toegepast bij tweehonderd bedrijven, ziekenhuizen en gemeenten. Ziekenhuizen gebruiken het om te controleren of wordt afgeweken van behandelplannen. Vaak is het confronterend als boven water komt hoe inefficiënt afgesproken processen verlopen.”

Hebben managers wel een reëel beeld van hun organisaties?

„Een herkenbare metafoor: de universiteit heeft een officieel curriculum. Maar het echte studiegedrag is totaal anders. Studenten zakken, lopen een extra stage, doen vakken in een andere volgorde, etcetera. Ook werknemers werken anders dan de leiding vaak heeft bedacht. Dat is niet altijd slecht, soms werken mensen om een probleem heen. Maar vaak worden stappen overgeslagen of dubbel gedaan. Het is ontzettend waardevol dat zichtbaar te maken.”

„Zal ik het anders even laten zien?”, zegt Van der Aalst als hij zijn aktetas begint uit te pakken. „Sorry als ik enthousiast word.” Hij klapt zijn laptop open en start een programma op. „Dit zijn bijvoorbeeld data van een woningcorporatie, vanaf het moment dat iemand z’n huur opzegt tot het moment dat het huis weer verhuurd wordt aan een ander.”

We kijken naar een visualisatie van bollen die door verschillende tunnels glijden. Elke bol stelt een woning voor. „Kijk, deze opstopping is verdacht. Werk blijft wekenlang wachten en wordt op dezelfde dag ineens uitgevoerd. Is dat nodig?”

U gebruikt zogeheten event logs. Wat zijn dat?

„Eventdata zijn overal. Iedere keer dat je een e-mail stuurt, is dat een gebeurtenis. Elke geplaatste order, elke salarisverhoging. Toen we hiermee begonnen, hadden we moeite met het analyseren van datasets met tienduizenden ‘events’. Nu kunnen we er honderd miljoen op een laptop in een paar seconden analyseren.”

Vinden werknemers het geen onbehaaglijk idee dat hun e-mailgedrag conclusies oplevert voor managers?

Er zijn veel meer data dan mensen beseffen. Vaak is het onduidelijk hoe deze al worden gebruikt. Als je process mining gaat toepassen, ontstaat er een meer fundamentele discussie over wat wel en niet kan. Process mining gaat meestal niet over afzonderlijke werknemers, maar blijft op het niveau van systeemcomponenten of afdelingen. Wij deden bijvoorbeeld een project met KPN om erachter te komen wanneer zij klanten verliezen. We analyseerden data over contact tussen klanten en het bedrijf en vonden dingen op procedureel niveau: niet alles was goed geregeld. Soms blijkt een derde partij waaraan activiteiten zijn uitbesteed tekort te schieten. Maar het kan ook vastlopen op het niveau van prestatieproblemen van afdelingen, of individuen.”

U heeft zelf niet in de hand hoe process mining wordt ingezet door de honderden bedrijven die het toepassen. Voelt u zich verantwoordelijk?

„Eigenlijk niet. Het is natuurlijk een krachtig instrument, maar het is de verantwoordelijkheid van het bedrijf om het op een zinvolle manier te gebruiken. In een spreadsheet kan ook gevoelige informatie staan. Dat is niet de schuld van het spreadsheet.”

Experimenteert de politiek ook met uw data-analysetechnieken?

„Er is in de politiek nog weinig benul van de mogelijkheden en onmogelijkheden van datawetenschappen.”

Op Europees niveau worden privacyregels steeds strenger. Er komen sancties tot 4 procent van de omzet als bedrijven te makkelijk met persoonsgegevens omspringen.

„Deze beweging richting wetgeving is wat mij betreft goed. Daarnaast moeten we ook oplossingen in de technologie blijven zoeken. Stel dat we zouden zeggen: we zijn tegen de vervuiling van auto’s, daarom stoppen we met autorijden. Dan hebben we geen vervuiling meer, maar valt de economie ook stil.”

Van der Aalst heeft het initiatief Responsible Data Science opgezet voor vraagstukken rond data-analyse. Privacy is daarbij een belangrijk thema. „We merkten dat het anonimiseren van data bijna niet werkt. Het is heel lastig om data zo te bewerken dat ze niet meer herleidbaar zijn. Wij worden steeds beter in encryptie, waarmee je op versleutelde data nog steeds berekeningen los kunt laten.”

Data-analyse kan ook discriminerend werken.

„Dat klopt. Stel dat je met data beurzen voor universiteiten wilt verdelen. In een dataset kan staan dat mannen langer over hun studie doen of dat Duitse studenten sneller zijn. Een algoritme probeert zo goed mogelijk in te schatten of een student de eindstreep haalt. Dat kan dus leiden tot automatische beslissingen op basis van geslacht en nationaliteit. Wij proberen met algoritmes garanties in te bouwen die bij selecties bijvoorbeeld de verdeling tussen mannen en vrouwen gelijk houden.”

Er is een groeiende vraag naar voorspellen met data. De Nederlandse politie wil bijvoorbeeld de eerste ter wereld zijn die landelijk voorspelt waar misdaad gaat plaatsvinden. Werken jullie ook aan dat soort toepassingen?

„Wij keken tot dusver vooral naar het heden en verleden. Technisch stelt het weinig voor om dat door te laten lopen naar de toekomst. Maar als je de werkelijkheid wil beïnvloeden, wordt dat wetenschappelijk gezien erg lastig. Je voorspellingen kloppen niet meer op het moment dat je een interventie pleegt.”

Is er veel gretigheid binnen bedrijven voor voorspellende analyses?

„De meeste bedrijven zijn al blij als ze het verleden goed kunnen analyseren. Ze zullen inderdaad langzaam meer naar de toekomst gaan kijken. Het is al mogelijk voor specifieke stappen in een proces. Als jij bij Bol.com een aanbeveling voor een boek krijgt, hoopt men dat jij jouw toekomstige gedrag verandert. Dat is nog een heel simpel vraagstuk, bedrijfsprocessen zijn veel complexer.”

U houdt niet van de term ‘big data’.

„Het is een hypeterm. Dat data groot zijn, is een leeg begrip. Door de exponentiële groei van data om ons heen raakt het steeds meer ons dagelijks leven. We zoeken een term om dat een plaats te geven. Maar daarachter zit een gevestigd vakgebied met tradities. Statistiek is al honderden jaren oud, maar toch een van de basisingrediënten van big data.”

Wat vindt u van de reputatie van big data?

„Big data is vaak negatief in het nieuws. Terwijl wij onbewust al ontzettend veel gebruikmaken van de verworvenheden ervan. Veel instanties werken veel efficiënter dan tien jaar geleden. Een nieuwe telefoonaansluiting is bijvoorbeeld meteen geregeld, mede dankzij big data.”

U zegt: over tien jaar zijn er meer data- dan computerwetenschappers.

„Juist omdat je de interpretatie van data niet kunt automatiseren. Die is in elke bedrijfssituatie weer anders. Het blijft mensenwerk. Facebooksoftware kun je – bij wijze van spreken – zo uitrollen over de hele wereld. Mensen gebruiken het en klaar.”