Het kan: data-expert worden in een dag

Cursus

De vraag naar dataspecialisten neemt rap toe. Niet de juiste opleiding gevolgd? Een stoomcursus kan uitkomst bieden.

Illustratie NRC

In de twintigste eeuw zette je turbo, 2000 of .com achter je product om modern te ogen. Nu zijn AI - artifical intelligence – en ML – machine learning – de modekreten. Niet alleen bij Google, Facebook, Amazon of Netflix stroomt AI door de aderen. Overal waar gegevens verzameld worden kun je de computer data laten analyseren om op basis daarvan een model van de werkelijkheid te bouwen. Denk aan webwinkels die klanten automatisch betere aanbevelingen willen doen, banken die frauduleuze transacties herkennen, auto’s die zelf remmen voor voetgangers of computers die tumoren ontdekken voordat een arts ze opmerkt.

Al heet het machine learning – software die zichzelf traint met informatie – de computer moet wel door mensen in goede banen worden geleid. AI-specialisten en datawetenschappers zijn daarom niet aan te slepen.

Dit artikel is onderdeel van een IT-special over kunstmatige intelligentie.

- Het AI-woordenboek: Wat is een algoritme, wat doet een neuraal netwerk?
- Reportage Google Research Lab: Wat gebeurt er in de machinekamer van Google?
- Machine learning expert Max Welling: ‘Europa moet zorgen voor morele balans’
- Doe de stoomcursus AI: Wordt data-expert in één dag
- Genoeg investeerders in AI, maar waar blijven de zinnige AI-toepassingen?
- Waarom deze special? Kunstmatige intelligentie is mensenwerk.

Daarvoor kun je gaan studeren, door een universitaire minor of master kunstmatige intelligentie te volgen bijvoorbeeld. Maar er is een snellere methode om je het jargon en het bouwen van modellen met algoritmes eigen te maken, belooft het trainingsbureau Growth Tribe.

Wees gerust: de computer doet het rekenwerk. Maar het kan geen kwaad te begrijpen hoe dat tot stand komt

In een stoomcursus maak je in twee dagen tijd kennis met de basisbeginselen van de kunstmatige intelligentie, toegepast op online marketing – websites en bedrijven die meer uit de data van hun bezoekers en klanten willen halen.

Voor 1.479 euro exclusief BTW leren cursisten een model bouwen dat zoekt naar verbanden tussen de webbezoekers, leeftijd en geslacht bijvoorbeeld, en of zij hun telefoon of laptop gebruiken. Wie kopen er meer of minder artikelen, wie komen vaker terug op de site? In welke klanten moet je de meeste energie steken omdat ze vermoedelijk het meeste zullen opleveren? En dat zonder coderen: het grootste struikelblok in deze tak van sport.

‘AI is geen magie’

Mensen die de brug kunnen slaan tussen datawetenschap en zakelijke beslissingen zijn volgens Growth Tribe precies het soort werknemers waar bedrijven om staan te springen. Enige affiniteit met wiskunde en statistiek kan daarbij geen kwaad. Dan knipper je in ieder geval niet met je ogen als tijdens de cursus de stelling van Pythagoras voorbijkomt in de vorm van een „multidimensionale hypotenusa”. Wees gerust: de computer doet het rekenwerk. Maar het kan geen kwaad te begrijpen hoe dat tot stand komt.

En je moet het marketingjargon begrijpen. Weten dat CLTV geen nieuwszender is maar customer lifetime value, datgene wat een klant in de toekomst aan je winst kan bijdragen.

Ter kennismaking organiseerde het bureau in september een eenmalige stoomcursus machine learning voor journalisten van slechts één dag. „We leren 20 procent van de algoritmes om 80 procent van de problemen op te lossen”, zegt Bernardo Nunes tegen zijn klasje. Hij zet samen met zijn collega-docent David Arnoux de vaart erin. Het tempo ligt hoog, maar de instapdrempel is laag. Een kwestie van gratis software downloaden, tanden op elkaar en crunchen maar. En passant beloven de docenten ‘ aha-momenten’ en willen ze de mythes doorprikken die over kunstmatige intelligentie de ronde doen: „Het is geen magie”. Vier lessen uit de stoomcursus.

  1. Kies het juiste algoritme bij de vraag

    De wiskundige formules die ten grondslag liggen aan machine learning zijn niet nieuw – ze komen bekend voor als je ooit een cursus statistiek deed. Algoritmes worden vaak over één kam geschoren maar er zijn verschillende smaken. Welke de beste is, hangt af van de vraag die je wilt beantwoorden. Wil je weten hoe geënquêteerde klanten over je product denken? Wil je weten of iemand klant zal blijven? Of wil je weten wat er op Twitter over je bedrijf gezegd wordt?

    We leren drie verschillende soorten voorspellende algoritmes toepassen – trucs om het gedrag van klanten goed te interpreteren en er de juiste reclame of vervolgactie op los te laten. Meer past er niet in de stoomcursus.

    Met supervised learning zoeken we naar een model dat klantengedrag voorspelt. Hoeveel iemand gaat kopen bijvoorbeeld, of hoe groot de kans is dat diegene nog eens terugkomt. Het eerste algoritme, het zogeheten ‘lineaire regressie-algoritme’, probeert de beste match te vinden tussen de eigenschappen van een klant en zijn vermoedelijke toekomstige koopgedrag. Het ‘random forest-algoritme’ deelt een verzameling variabelen op in verschillende ‘beslissingsbomen’ en voegt dan de belangrijkste eigenschappen weer samen.

    Bij unsupervised learning probeert het algoritme patronen te vinden in alle eigenschappen van gebruikers. Door mensen op te delen in groepen, bijvoorbeeld op basis van postcode of met welk apparaat zij de site bezoeken, kun je je klanten beter bedienen. Als je weet welke klanten waarschijnlijk het meest zullen spenderen op je site, kun je de beschikbare middelen efficiënter inzetten.

    Een ander middel dat je als marketeer kunt gebruiken is een ‘neuraal netwerk’. Dit algoritme kan objecten of eigenschappen herkennen in een plaatje door pixel voor pixel de terugkerende patronen te registeren. Leg je meerdere lagen van dat proces op elkaar dan krijg je een deep neural network.

    Een neuraal netwerk kun je in de praktijk bijvoorbeeld gebruiken om te kijken welke kleuren of patronen in de mode zijn. „Zo kun je in korte tijd een mini-expert worden”, zegt een van de docenten. Om het algoritme te trainen, voeden we het een paar honderd plaatjes van modeshows. Twee, drie klikken in Orange 3 (open bron software, gratis te downloaden) en de eerste berekeningen lopen. Terwijl de computer de dataset ‘catwalk’ laadt, bouwen we een ‘flow’. 765 plaatjes worden geanalyseerd door een neural network dat op een server draait – je hebt er geen zware pc voor nodig.

    Elke pixel in elk plaatje wordt omgezet in een cijfer. Uiteindelijk levert dat een lijst met ruim tweeduizend verschillende eigenschappen over kleur, vorm en details op. Als je de plaatjes groepeert op basis van hun overeenkomsten valt er iets op. Een paar ontwerpen van Valentino lijken veel op die van Cédric Charlier – hetzelfde motiefje, zegt de computer.

    De klas knikt, de leraar is tevreden: „We wisten niets van mode, nu zijn we in één klap expert geworden.”

  2. Beoordeel welk algoritme het beste scoort

    In het goede geval helpen wiskundige modellen je de werkelijkheid enigszins te doorgronden. In het slechte geval zetten ze je juist op het verkeerde been. Maar hoe weet je welke modellen goed scoren en je kunnen helpen? Dit kun je bepalen door de dataset met klantgegevens op te splitsen in twee delen: 70 procent van de data dient om het algoritme te trainen en patronen te vinden. De overige 30 procent gebruik je voor het ‘blind’ testen van de modellen. Gaat een webbezoeker een blauw of een rood shirt kopen op basis van de data die je over hem hebt? Het aantal keren dat je dat juist voorspelt op basis van een model, bepaalt de score.

    Maar die score zegt niet alles. Er is verschil tussen hoge precisie (het juiste percentage mensen dat een bepaalde aankoop doet) en een hoge trefkans (zijn de klanten die kochten wel de mensen van wie je dat voorspeld had, of zaten er veel ‘valse negatieven’ tussen?).

    Onthoud maar dat een hogere waarde beter is en dat het tussen 0 en 1 in moeten zitten, zeggen de leraren. Welke score je het zwaarst laat tellen hangt van je doel af. Bij een zwangerschapstest wil je bijvoorbeeld met name het aantal valse negatieven minimaliseren: mensen die wél zwanger zijn maar waarvan de test beweert dat ze het niet zijn.

  3. Kijk uit voor statistische instinkers

    We zijn op zoek naar correlaties in gedrag uit het verleden, om een betere voorspelling te kunnen doen over gedrag in de toekomst. Welke bezoekers van je site kochten een blauw overhemd? Wie zullen dat gaan doen? Wanneer kiezen ze toch een rode? Maar, waarschuwt Bernardo Nunes, er is nooit een causaal verband. „Correlaties zijn een bijproduct van machine learning, een hulpmiddel om betere hypotheses te creëren tijdens je experimenten.” Dit is een klassieke instinker in de statistiek: een correlatie tussen het aantal ooievaars in een regio en het aantal geboren kinderen wil niet zeggen dat het één direct gevolg is van het ander.

    Een algoritme geeft een weergave van wat er in de geschiedenis is gebeurd en projecteert dat op de toekomst, met een zekere waarschijnlijkheid. Dat het algoritme vaak gelijk krijgt, bijvoorbeeld als je een website bezoekt, betekent dat we minder uniek en gemakkelijker beïnvloedbaar zijn dan we denken. En dat een website ons op een adequate manier weet te sturen.

  4. Leer je klanten kennen

    Welke algoritmes je ook gebruikt, de kwaliteit van je voorspellingen hangt altijd af van de data waarmee je je modellen voedt. Vandaar dat vrijwel elke winkel of dienstaanbieder klanten bombardeert met enquêtes en waarderingsformulieren. Door overeenkomsten te vinden tussen klanten die dezelfde producten interessant vonden, kun je betere aanbevelingen doen.

    Booking.com gebruikt deze methode om overeenkomsten te vinden tussen de steden die mensen bezoeken. Uit A/B tests (de helft van de doelgroep krijgt een nieuwsbrief op maat, de andere helft een gewone) blijkt dat het werkt. Reacties op fora of op Twitter kunnen ook gebruikt worden om een beeld te krijgen van hoe mensen over je denken, demonstreren de docenten. We gaan aan de slag met algoritmes om sentimenten in teksten te vinden. Die tekstanalyse kun je tevens loslaten op je eigen enquêtes.

    Probeer het karakter van je klant te doorgronden, luidt het devies. Niet met een muur vol post-its en lange brainstormsessies, maar met data. Leraar David noemt het voorbeeld van het Britse databedrijf Cambridge Analytica, dat een database bouwde met correlaties tussen persoonlijkheidsprofielen en Facebook-likes, informatie die gedeeld werd met het campagneteam van Trump. Met de data zouden ze het kiesgedrag van de Amerikaanse burgers beïnvloed hebben. „Als burger vind ik zoiets verschrikkelijk, maar als marketeer zeg ik: ik wou dat ik het zelf kon gebruiken.”