Datapakhuis bevat alle gegevens over het gedrag van de klanten

Grootwinkelbedrijven, banken, reisbureaus, supermarktketens en andere grote ondernemingen ontdekken het 'datapakhuis'. Dat is een computertoepassing die het mogelijk maakt gegevens te analyseren die in de bedrijfscomputers zitten, maar die tot voor kort nauwelijks toegankelijk waren.

Sony City heet dit stukje van Badhoevedorp. Op de zevende verdieping zit Frans Janssen achter zijn laptop. Hij laat trots zien tot welke interessante dingen zijn splinternieuwe computerprogramma in staat is. Het is een zogeheten EIS-applicatie (van Executive Information System), een pakket waarmee de Sony-mensen elke denkbare vraag over de afzet van hun produkten kunnen beantwoorden. Janssen heeft het programma een half jaar geleden bij softwareproducent Information Builders besteld en in samenwerking met de bouwers is het ontwikkeld tot een foolproof stukje managers-gereedschap.

“Laten we eens kijken hoe de KVS2941 het bij de dealers gedaan heeft”, zegt Janssen. “Dat is een 29 inch kleurentelevisie.” Met de muis klikt hij op produkten, dan op televisies, en dan op de KVS2941. Ziezo. Nu klikt hij de rubriek dealers aan en na een paar seconden komen de scores in beeld. Dealer X heeft er flink wat verkocht, maar minder dan vorig jaar. Om precies te zijn: de verkoop nu is 73 procent van die van vorig jaar. Janssen: “Je kunt je nu afvragen: is dat een algemene trend? Zijn er nog meer dealers die onder de 80 procent met dat toestel zitten?” Janssen vult '80' in een vakje in. Het beeld verandert weer en daar heb je alle dealers die van deze tv 20 procent minder hebben verkocht dan vorig jaar. Het zijn er een stuk of vijftien. “Nu zou je verder kunnen analyseren”, zegt Janssen. “Zitten al die dealers in een regio waar Philips net met een 29 inch aan het stunten is? Moet je die dealers niet eens gaan opzoeken om ze eens wat te stimuleren? Moeten we die tv voordelig gaan aanbieden? Is er iets mis met onze vertegenwoordigers daar?

“Die vragen kun je beantwoorden door bijvoorbeeld te kijken of de afzet van andere modellen bij die dealers ook onder de maat blijft. En je kunt de marktgegevens van GFK (Gesellschaft für Konsum, Markt und Absatzforschung, red.) erbij halen om te zien wat de trend voor de gehele branche is.” Janssen gaat nog even door. Dealers met een omzet die anderhalf keer zo groot is als vorig jaar? Videorecorders die het in het zuiden van het land slecht doen? Vertegenwoordigers die beter scoren dan het gemiddelde? Ze rollen allemaal zo over zijn scherm.

Wat Janssen hier laat zien is een computertoepassing die overal ter wereld grote opgang maakt. De namen variëren. Sommigen spreken van On Line Analytical Processing (OLAP), anderen van Executive Information Service (EIS) en weer anderen van data mining. Maar steeds gaat het om programma's waarmee bedrijven en andere organisaties de gegevens analyseren die ze in hun eigen computers hebben zitten, maar waar ze tot voor kort heel moeilijk bij konden komen. Met technieken die bekend staan als slice and dice en drill down wordt een plakje uit de informatieberg gesneden en wordt net zolang ingezoomd totdat de gezochte informatie in beeld komt.

Dat blijkt lucratief te zijn. Niet alleen voor routineklussen, zoals het opstellen van accountantsrapporten en voor het publiceren van jaar- en kwartaalcijfers. Je kunt er ook patronen in het gedrag van het koperspubliek mee opsporen, risicogroepen onder je verzekerden identificeren, fraude ontdekken, de prestaties van je vertegenwoordigers in de gaten houden en de verrichtingen van je vestigingen en business-units volgen. In theorie was al dat speurwerk ook al eerder mogelijk, bedrijfsgegevens zitten immers sinds jaar en dag in de computer. Maar het worden er steeds meer en ze bevinden zich in de praktijk vaak in verschillende computers. In de vestigingen van een modaal grootwinkelbedrijf worden dagelijks vele honderdduizenden transacties afgesloten, en lang niet alle gegevens bereiken het hoofdkantoor. Verder was het formuleren van een goede vraag het werk van computerspecialisten. Het zoeken naar antwoord kostte soms wel een paar dagen, en als er dan eindelijk antwoord kwam, ontdekte de vragensteller vaak al na een paar minuten dat hij dit eigenlijk niet bedoeld had, en dat hij bij nader inzien de vraag net iets anders had willen stellen. Een paar van dergelijke oefeningen zijn meestal genoeg om de manager zijn nieuwsgierigheid af te leren.

De meeste gegevens die banken, verzekeringsmaatschappijen, grootwinkelbedrijven, reisorganisaties en fabrieken tot hun beschikking hebben, ontstaan tijdens de talloze transacties die ze uitvoeren met hun afnemers, klanten en toeleveranciers. Ze komen tot stand aan balies, kassa's en kantoren. Ze zijn bedoeld om kassabonnen te printen, tickets aan te maken, stoelen te reserveren, banksaldi te veranderen, de voorraad te beheren en rekeningen te versturen. Ze zijn niet bedoeld om vragen te beantwoorden als: welke cliënten hebben het afgelopen jaar meer dan tienduizend gulden geleend? Kopen afnemers van frisdrank meestal ook zoutjes? Maken Jaguarrijders meer brokken dan VW-chauffeurs?

Dat die gegevens daar niet geschikt voor zijn heeft twee oorzaken. De eerste is dat ze meestal niet ver teruggaan. De doorsnee transactiegegevens hebben maar een kort leven, ze worden gewist als de kas is opgemaakt, de voorraad is aangevuld en het vliegtuig veilig is geland. Voor analyses van trends lenen die gegevens zich dus niet.

De tweede oorzaak is dat de zware computers waarin de transactiegegevens zich bevinden niet geschikt zijn voor het type vragen waarop managers en beleidsmakers graag een antwoord willen. Ze zijn bedoeld voor het snel registreren en snel terugvinden van gegevens, en de verbanden waarnaar gevraagd wordt zijn van een zeer eenvoudig soort: hoeveel stoelen zijn nog vrij in de KL432? Wat is het banksaldo van mevrouw De Groot? Hoeveel flessen Beaujolais zijn er vandaag verkocht? De manager die zou willen weten of de kopers van Beaujolais in het algemeen ook vlees en groente bij hem kopen, of die wil nagaan hoeveel KL432-passagiers regelmatige klanten van hem zijn, zou zijn zware mainframecomputer flink van slag kunnen brengen als hij hem met die vragen belastte. Voor dit soort zoekprocedures hebben deze drukbezette computers helemaal geen tijd. Waar dus nog bij komt dat die mainframes alleen maar luisteren naar commando's die uiterst gebruiksonvriendelijk zijn en slechts door enkele technici worden beheerst. Al met al weinig aanleiding voor de doorsnee-manager eens wat te gaan graven in zijn informatieberg. Hij vermoedt of weet dat er schatten in zitten, maar ze zijn zo moeilijk op te graven.

De oplossing die voor dit probleem is gevonden is het 'bouwen' van een zogeheten data-warehouse, een datapakhuis. Dat is een extra computer, waarheen periodiek en uit alle hoeken en gaten van het bedrijf de belangrijkste gegevens worden gekopieerd - en ook worden bewaard. Het hoeft niet perse een zeer zware of dure computer te zijn, maar de meest geavanceerde pakhuis-computers zijn geschikt voor parallel-processing. Dat is een methode om grote hoeveelheden gegevens in stukken te hakken en ze met brute force door de computer te jagen. Op de computer van het datapakhuis kunnen dan de gewenste vragen worden losgelaten, zonder dat de dagelijkse gang van zaken er door wordt opgehouden.

De meeste grote Amerikaanse softwarebedrijven die programma's maken voor het beheer van grote gegevensbestanden, zoals Oracle, Sybase en Informix hebben de nieuwe afzetmogelijkheden hartelijk verwelkomd en hebben zich enthousiast op de datapakhuizen gestort. Daarnaast hebben nieuwkomers zoals het van oorsprong Franse, maar inmiddels ook in Silicon Valley gevestigde Business Objects, zich op deze snel groeiende markt begeven. Business Objects heeft zich vooral toegelegd op een gemakkelijke bediening. Dat heeft het bedrijf geen windeieren gelegd; ook in Nederland draaien de programma's van Business Objects inmiddels op 70 plaatsen, waaronder Shell, Hema, Elsevier, MeesPierson en het KNMI.

De 'pakhuismarkt' is zo interessant omdat een goed functionerend datapakhuis een flink voordeel verschaft in de steeds heftiger wordende internationale concurrentie. De strijd om de overgebleven niches wordt grimmiger en banken, verzekeraars, grootwinkelbedrijven en reisbureaus moeten onder elkaars duiven schieten, of de eigen duiven verleiden tot meer klandizie. Een bekend voorbeeld zijn de babyluiers: grootwinkelbedrijven hebben uit de analyse van hun computergegevens geleerd dat kopers van babyluiers vaak ook babyvoedsel kopen. Zo vaak zelfs, dat het de moeite loont die artikelen vlak bij elkaar te plaatsen.

Inmiddels heeft de onderlinge concurrentie van de pakhuisbouwers de prijzen doen dalen. “Een paar jaar geleden was je een paar miljoen dollar kwijt als je een datapakhuis wilde bouwen”, zegt Erin Kinikin, senior manager bij Sybase in San Francisco. “Maar nu kom je met 150.000 dollar al een heel eind.”

Maar een datapakhuis is niet van de ene op de andere dag gebouwd. Een flink bedrijf met veel vestigingen - een bank bijvoorbeeld, of een supermarktketen - werkt meestal niet met een, maar met een heel arsenaal van computersystemen. Bijkantoren kunnen afwijkende procedures hebben en ook de moderne gewoonte om bedrijven te organiseren in business-units kan ertoe leiden dat op centraal niveau de digitale eindjes moeilijk aan elkaar zijn te knopen. Mevrouw J.B. van Paas heeft misschien een hypotheek, een salarisrekening en een persoonlijke lening bij haar bank, maar misschien staat zij in de verschillende administraties wel drie keer verschillend geregistreerd. Als J. van Paas, als J.B. van Paas en als J.B. van Paas-Scherpenhuizen. Hetzelfde kan gelden voor artikelnummers, bepaalde diensten, adressen, regio-indelingen en met welke andere eenheden een bedrijf ook maar werkt. Al deze problemen, maar dan in het kwadraat, kom je tegen als twee bedrijven fuseren of als het ene bedrijf het andere overneemt.

Bij de bouw van een datapakhuis moeten die codes en indelingen dus uitgezuiverd en geschoond worden, en moeten allerlei vertaaltabellen worden aangemaakt om in het vervolg de toelevering van nieuwe gegevens te uniformeren. Om het allemaal wat hanteerbaar te maken worden ook niet alle gegevens gebruikt. Vaak worden sommige gegevens ook al vantevoren bij elkaar gezocht - 'geaggregreerd' - zodat veel-voorkomende bewerkingen extra snel kunnen geschieden. “Als je een datapakhuis gaat bouwen moet je de organisatie van je bedrijf goed kennen”, zegt database-expert Erik Schutten. “Je moet weten welke gegevens worden bewaard en waar ze worden bewaard. Verder moet je je afvragen welke externe gegevens je wilt aankopen. CBS-cijfers of gegevens van andere data-vendors kunnen je een inzicht geven in de prestaties van de concurrent. Het is zaak om ook de buitenwereld goed in de gaten te houden.” Schutten werkt bij MeesPierson aan data-warehousesystemen en is actief lid van de databaseclub van het Nederlands Genootschap van Informatici. Zijn bank heeft een organisatie met verschillende niveaus: internationale en nationale vestigingen en business units, die ieder vaak een eigen automatiseringscultuur hebben.

De fusie van 1992 (tussen bank Mees Hope en Pierson, Heldring en Pierson) heeft ook de gebruikelijke afstemmingsproblemen opgeleverd. Het besluit een datapakhuis te bouwen kan soms leiden tot het besluit de meest hinderlijke verschillen aan te pakken. Schutten: “Zo nu en dan zie je al dat ook problemen die bij het bouwen van het datawarehouse aan de oppervlakte komen niet met vertaaltabellen en conversies te lijf worden gegaan, maar eerder worden opgelost, op het niveau van de transacties. Zo kan het bouwen van een datapakhuis dus ook meer systematiek tot gevolg hebben.”

Het bedrijf dat een datapakhuis heeft gebouwd en de daar opgeslagen informatie op een heldere manier toegankelijk heeft gemaakt, heeft er meestal maar weinig moeite mee zijn medewerkers enthousiast te maken. “Na een korte aanloopperiode vindt iedereen het erg handig”, zegt Frans Janssen. Bij Sony werken nu 78 mensen met de nieuwe toepassing, en de meesten zouden het niet meer willen missen. Ook Schutten van MeesPierson heeft die ervaring. “Als de gebruikers er eenmaal aan gewend zijn willen ze steeds meer”, zegt hij. Ze komen voortdurend met nieuwe vragen. 'Kan dit ook?', vragen ze dan - en dan is het onze taak daarin te voorzien.” En de gebruikers willen de antwoorden ook steeds sneller. In de bankwereld wordt het datapakhuis zo nu en dan ook al gebruikt bij het beoordelen van kredietaanvragen, en het is niet de bedoeling dat de klant tien minuten moet wachten terwijl de computer zijn verleden induikt.

Een populaire toepassing is het gebruik voor marketing-doeleinden. Of de marketingcampagne voor de nieuwe kredietvorm een succes is, kan met een goede pakhuis-toepassing snel worden bekeken, want met enig drill down- en slice and dice-werk kunnen de scores van dag tot dag worden gevolgd. Ook de kans op succes van de nieuwe campagne kan drastisch worden verbeterd als alleen die klanten worden benaderd die in het verleden ook al eens belangstelling hebben getoond, of als je alleen die klanten aanschrijft die weliswaar goed verdienen, maar toch zo nu en dan flink rood staan. In de Verenigde Staten zijn dergelijke selectieve strategieën schering en inslag. Postorderbedrijven sturen hun wijn-aanbieding alleen naar de klant die al eens eerder een flesje heeft gekocht, en anders naar de klant die wat betreft bestedingspatroon wel in het profiel past, maar om de een of andere reden nog geen wijn heeft gekocht. Of het stuurt je een vriendelijk briefje: dat je vorig jaar een kerstcadeautje aan S. stuurde, en dat het bedrijf het helemaal geen moeite vindt om dat dit jaar weer voor je te regelen.

Is er hier de privacy niet in het geding?

“Er loopt een dunne lijn tussen privacy en gemak”, zegt Erin Kinikin van Sybase. “Hoe meer de bank of het postorderbedrijf van je weet, des te minder zul je post krijgen waar je geen prijs op stelt. Je moet je klanten goed tegemoet kunnen treden, je moet aan hun speciale wensen kunnen voldoen, en daar helpen dit soort toepassingen bij.” Schutten van MeesPierson legt het accent iets anders. “Van een goed datapakhuis kunnen je klanten profiteren. Wij zien dat onze klanten steeds meer inzicht willen hebben in hun eigen betalingsgeschiedenis. Zodra je ze gegevens kunt leveren over hun totale portefeuille, hun uitgavenpatroon, de zwakke plekken erin, de sluipende tendensen, of wat dan ook, zullen ze die mogelijkheden met beide handen aangrijpen.”