Te veel gegevens, te weinig analisten

Het toverwoord in de it-sector is Big Data – patronen herkennen in gegevens. Maar er zijn te weinig it’ers om de databerg te bedwingen.

Google en Facebook doen het om meer advertenties op maat te verkopen. TomTom doet het om verkeersdrukte te voorspellen. Amazon doet het om je een geschikt boek te adviseren. Bedrijven verzamelen grote hoeveelheden gegevens om betere beslissingen te nemen. Big Data – de hoofdletters horen erbij – is een modewoord in de it-industrie. Nu we menselijk gedrag op grote schaal vastleggen in digitale gegevens, proberen computers dat gedrag te analyseren en te begrijpen – zelfs te voorspellen. In de analoge wereld is dat te bewerkelijk.

De databerg groeit in onrustbarend tempo. Kijk naar de hoeveelheid webverkeer die de wereld over gaat: dat was in 2001 één exabyte per jaar (zie kader). In 2013 bedraagt het webverkeer één exabyte per dag, aldus netwerkspecialist Cisco. In 2016 verstouwt het web meer dan één zettabyte per jaar (1.024 exabytes). De hoeveelheid digitale gegevens die opgeslagen ligt in datacentra groeit nog veel harder: 40.000 exabytes in 2020, schat onderzoeksbureau IDC.

Waar komt al die data vandaan? We gebruiken meer apparaten die verbinding maken met elkaar, via webdiensten, sociale netwerken en online-opslag in datacentra. Meer smartphones, apps en web-sites, videotelefonie, digitale foto’s en films, lees- en zoekgedrag, locatiegegevens, betalingsverkeer, toegangspasjes, medische dossiers, sensoren in het elektriciteitsnet, het thuisnetwerk, op ons eigen lichaam. Bij die sensoren past een ander modewoord: The Internet of Things. Deze interactie tussen machines draagt veel bij aan de groeiende datahoop.

Maar ruim de helft van alle Big Data bestaat uit surveillancegegevens, met name van bewakingscamera’s. De veiligheidsindustrie en geheime diensten gebruiken Big Data-technologie als manier om mensen in de gaten te houden. Nu burgers massaal, vaak onbewust, digitale sporen nalaten is privacy een heikel punt.

Bedrijven als Facebook, Google, Amazon en Netflix moeten het hebben van schaalgrootte. Ze hamsteren gegevens om interesses van hun gebruikers vast te stellen. Banken en verzekeringsmaatschappijen gebruiken grote hoeveelheden data om risico’s en trends in te schatten.

Maar niet alleen de commercie heeft baat bij Big Data. Je kunt de verspreiding van griep volgen als je weet welke mensen er googlen op de term ‘griep’. Big Data kan zelfs levens redden als artsen geholpen worden door een computer die miljarden medische dossiers doorzoekt en patronen herkent die een mens niet waarneemt.

Maar niet alle data zijn nuttig. En niet alle data is te begrijpen voor een computer. Analysesoftware kan van oudsher alleen overweg met gestructureerde databases, waarin alles keurig is onderverdeeld in vastgelegde relaties en categorieën. Zo zit de wereld niet in elkaar.

IBM’s Watson-project is mede gericht op natuurlijk taalgebruik en kan ook ongestructureerde tekst, spraak en video analyseren. Als marktleider in zakelijke software lijkt IBM het bedrijf dat het meest zal verdienen aan de Big Data-trend. Daarna komen HP, Oracle en EMC en leveranciers als Cisco, Intel, Dell en kleinere softwareontwikkelaars.

Volgens onderzoeksbureau Gartner is 28 miljard euro van de wereldwijde it-uitgaven in 2012 te danken aan investeringen in Big Data. In 2013 is dat 34 miljard dollar. Het is nog een klein deel van de totale it-uitgaven (3.600 miljard) maar bedrijven zullen alleen maar meer investeren in extra opslagcapaciteit, analysesoftware en specialisten. Er dreigt wel een tekort aan statistici, analisten en ontwerpers die datastromen kunnen vormgeven. Van de 4,4 miljoen banen in deze sector (wereldwijd) kan in 2015 maar eenderde vervuld worden, verwacht Gartner.