Sponsored content
Sponsored content

Tijd voor de grote data-schoonmaak


Het gros van de organisaties staat amper stil bij de manier waarop data geordend wordt. Vooral bedrijfstakken die lang geleden zijn begonnen met automatisering, zoals banken en verzekeraars, zitten met een complexe digitale erfenis. Johan ten Houten en Hilko van Rooijen van Deloitte Risk Services kennen de gevaren van ongeordende data en slechte datakwaliteit.

Wat kan er zoal misgaan met data?

Ten Houten: ‘Een simpel voorbeeld is het invoeren van datumgegevens in Excel: wie 1 april 2015 invoert als “1-4-2015” en uitwisselt met een Amerikaan, kan verwarring veroorzaken omdat die dit als 4 januari leest. Zonder duidelijke afspraken over het format kan een daarop volgende data-analyse leiden tot vreemde uitkomsten.’
Van Rooijen: ‘Maar ook het invoeren van data gaat vaak verkeerd, bijvoorbeeld wanneer een geboortedatum onbekend is en iemand dan maar “1 januari 1900” invoert. Een veel gehoord gezegde is “garbage in, garbage out”; Als je data van slechte kwaliteit analyseert, kun je eigenlijk niet verwachten dat daar kwalitatief goede onderzoeksresultaten uitkomen.’

Wat is jullie advies?

Van Rooijen: ‘Het ideale scenario is dat er vanaf het allereerste begin goed over de manier van data-vergaring wordt nagedacht. Maar daar heb je niks aan bij oude legacy-systemen, die soms al twintig jaar in gebruik zijn. Bij de aanleg ervan konden ze niet vermoeden welke analyse-mogelijkheden er nu allemaal zijn.’

Waar zitten de knelpunten?

Ten Houten: ‘In Nederland ondervinden we veel problemen met de gemeentelijke basis administratie, waarbij van 2,3% van de mensen het adres onbekend is. Een ander voorbeeld is de administratie van grote multinationals, ziekenhuizen of gemeentes. Er komen daar dagelijks veel facturen binnen; door een fout in de stamgegevens is het goed mogelijk dat een factuur tweemaal ingevoerd en betaald wordt. Dan denk je misschien “dat is een freak accident, dat gebeurt haast nooit”, maar dat gebeurt continu. Als je goed snapt hoe datakwaliteit in elkaar steekt en wat de grootste problemen zijn, kun je met een vrij eenvoudige toets de dubbelingen eruit halen. En dat is maar goed ook, want het betreft zomaar een prijzige MRI-scanner.’

Is er dan geen enkele sector gevrijwaard?

Van Rooijen: ‘Vrijwel alle bedrijven en instellingen die met geautomatiseerde systemen werken kunnen last hebben van ongeordende data en slechte datakwaliteit. Ook retailers, zoals supermarkten die sterk aan supply chain management doen. Omdat ze alleen op basis van de juiste gegevens efficiënt kunnen inkopen en transporteren, moeten ze op ieder moment weten wat ze in welk distributiecentrum of filiaal op voorraad hebben. De marges zijn erg klein, dus als het niet goed georganiseerd is maken ze direct verlies. Daarom is het voor hun extra belangrijk om hun datakwaliteit goed op orde te hebben.’

Hoe staat het met de bewustwording?

Ten Houten: ‘De angst voor de millenniumbug heeft tot veel bewustwording geleid over de kwaliteit van data en de afhankelijkheid van de systemen onderling. Iedereen begrijpt dat het mooi zou zijn om vanaf het begin het perfecte systeem te hebben, dat in één keer voldoet aan alle eisen van de toekomst, maar helaas werkt dat niet zo.’
Van Rooijen: ‘Wat tegenwoordig een heet hangijzer is: de beveiliging van data. Bedrijven zijn afhankelijk van de kwaliteit van gegevens, maar ook van de beschikbaarheid daarvan. Hackers die klantenbestanden onderscheppen of zelfs kunnen bewerken, vormen een heel groot risico. De datakwaliteit wordt niet alleen door fouten in de eigen organisatie, maar ook van buitenaf bedreigd.’

Welk advies geven jullie aan bedrijven?

Van Rooijen: ‘Met slimme tools en technieken kunnen we iets doen aan het op een juiste manier ordenen van de beschikbare data. Ondanks dat blijft voorkomen nog altijd beter dan genezen: Als je de kwaliteit van de analyses significant wil verbeteren, moet je daar bij het opzetten van systemen al rekening mee houden, bijvoorbeeld door het inbouwen van beveiliging en controles bij de vastlegging – is een getal in het datumveld wel echt een datum? – maar ook op het monitoren van de hele keten. En er moet een ouderwetse controle plaatsvinden om te zien of alle ingevoerde gegevens wel kloppen. Uiteindelijk zal dat hele proces te automatiseren zijn en zal datakwaliteit minder belangrijk worden door de voorspellende waarde van Big Data, maar tot die tijd vraagt het om onze volledige aandacht.’

 Johan ten Houten en Hilko van Rooijen zijn gespecialiseerd in data analyse en werkzaam binnen het financial crime analytics team van Deloitte dat toepassingen ontwikkelt om vanuit de data bijvoorbeeld fraude te ontdekken. Wil jij naar aanleiding van dit artikel van gedachten wisselen met Johan? Neem dan contact met hem op.