Hoe weet Blendle wat jij wil lezen?

De Formule Blendles aanbevelingssoftware Kevin probeert lezers ook artikelen voor te schotelen die niet in hun eigen ‘informatiebubbel’ zitten.

Illustratie Midas van Son

Elke dag vers. Bij de visboer is dat een voordeel, voor algoritmes een probleem. De digitale kiosk Blendle selecteert elke dag duizenden nieuwe verhalen uit kranten en tijdschriften ‘op maat’, zonder dat tevoren bekend is wat in die stukken staat. „Voor personalisatie is dat moeilijk”, zegt Daan Odijk. Hij leidt het data-onderzoek bij Blendle, het bedrijf dat artikelen uit Duitse, Nederlandse en Amerikaanse media op maat aanbiedt aan anderhalf miljoen gebruikers.

Blendle verkoopt losse artikelen en een Premium-abonnement, een geautomatiseerde selectie van dagelijks 20 artikelen. De eigen redactie selecteert ‘must read’-stukken, algoritmes vullen dat aan met een aanbod op maat. Maar hoe weet Blendles aanbevelingssoftware (roepnaam: ‘Kevin’) wat je wil lezen?

In tegenstelling tot Spotify en Netflix – hun algoritmes zoeken onder meer overeenkomsten tussen jouw smaak en die van andere gebruikers – doet Blendle geen aanbevelingen op basis van populariteit. Immers, aan het begin van de dag heeft nog niemand de stukken gelezen. De inhoud is bovendien actueel, dus beperkt houdbaar.

In plaats daarvan ‘matcht’ Blendle het profiel van de gebruiker met de aard van het artikel. Het algoritme analyseert van elk artikel behalve tekst en onderwerp ook de schrijfstijl, de lengte, het aantal plaatjes, de auteur en de titel. Zelfs naar het sentiment van het artikel wordt gekeken. ‘Generaliseren over de content heen’, noemt Daan Odijk dat. De computer probeert zoveel mogelijk te begrijpen over het onderwerp en artikelen te koppelen met Wikipedia-lemma’s.

Wat is een algoritme eigenlijk? In deze animatie leggen we het uit.

Uit de filterbubbel

Om je leesprofiel op te bouwen meet Blendle vanaf het eerste gebruik je interesses – je kunt je eigen thema’s opgeven, zoals wetenschap of tech. Na vijf gelezen artikelen neemt ‘machine learning’ het over: de software stelt een selectie samen op basis van door de lezer gegenereerde signalen. Die signalen zijn bijvoorbeeld welk stuk je leest, wat je terugruilt (je kunt in Blendle artikelen teruggeven, als je ze niet goed vindt), of je iets deelt of een artikel bewaart. Bladeren door de digitale kiosk wordt niet meegeteld en als je heel snel je artikel wegklikt (dan krijg je je geld terug), telt dat ook niet mee.

Al deze signalen worden gebruikt om artikelen te vinden die bij de gebruiker passen. Maar helemaal perfect moet die match niet zijn. Juist niet. Filterbubbels, onderwerpen en zienswijzen die bevestigen wat je al weet of interesseert, zijn een bekend verschijnsel op Twitter en Facebook. „Wij willen gebruikers juist uit die bubbel halen. Als je over onderwerpen leest die je verrassen, keer je vaker terug en zul je langer abonnee blijven”, zegt Odijk.

Blendle houdt er niet van om onderwerpen of titels te beperken. Odijk: „Zelfs als je nooit de LINDA leest, kan er toch een tof stuk in staan dat we je graag aanbevelen.” Het algoritme stuurt je een aantal stukken; als je die niet leest, onthoudt je profiel dat je dit onderwerp niet blieft. Na drie tot vijf keer proberen ligt dat vast.

Om lezers te verrassen wordt het ‘maximum marginal relevance’-algoritme op de lijst met potentiële artikelen losgelaten. Dat werkt als een wiskundig magneetje: als het onderwerp erg overeenkomt met dat van de andere artikelen, wordt het weggeduwd. Odijk: „We stoppen je eerst in een bubbel en halen je er daarna uit.”

Ook dubbelingen in onderwerp worden eruit gehaald of „naar beneden gedrukt”, zoals Odijk het zegt. Zodat je niet zes artikelen over de extreem lange file van gisteren hoeft te lezen.

Bij het verbeteren van de algoritmes laat Odijk twee varianten (modellen) tegen elkaar opbieden. Om beurten selecteren ze hun beste artikel. Odijk: „Vergelijk het maar met de gymles, waarbij twee partijen een team kiezen uit een groep kandidaten.” Als met het nieuwe model 3 tot 4 procent meer gelezen wordt – gemeten in minuten – dan wint de nieuwe versie.

„Zelfs als je nooit de LINDA leest, kan er toch een tof stuk in staan dat we je graag aanbevelen”

Wat lees ik?

Samen met Daan Odijk bekijk ik mijn eigen profiel, gezien vanuit Blendle. „Je hebt geen artikelen geruild of geld teruggevraagd en je houdt van langere stukken – mensen lezen ’s ochtends liever korte stukken en ’s avonds de longreads.”

Ik hoor niet bij een of andere groep gebruikers met soortgelijke smaak of achtergrond – iedereen heeft zijn eigen profiel op Blendle. In het mijne staat de berekening van wat ik ‘aan de voorkant’ zie op mijn Blendle-pagina: er is 94,8 procent kans dat ik wetenschap een leuk thema vind, 98 procent dat ik tech interessant vind. Veelgelezen persoonsnamen blijven ook bewaard, zoals Ahmed Marcouch en Alexa (van Amazon).

Blendle schat daarnaast in welke titel je interessant vindt. Odijk: „Er is 97 procent kans dat je een artikel uit de Volkskrant leuk zult vinden, 92 procent voor Het Parool. Ook De Standaard en De Telegraaf scoren hoog.

De Telegraaf? Odijk kijkt nog eens naar mijn profiel: „Bij de laatste vijftien artikelen die je las, zaten drie stukken uit de categorie Achterklap.”

Hoe algoritmes ons dagelijks leven bepalen

Ons leven wordt bestuurd door algoritmes, regeltjes achter de schermen. Deze wiskundige formules, gevoed door grote hoeveelheden data, sturen onze selectie van nieuws, entertainment en aankopen, vissen automatisch dieven en verdachten uit de massa. Lees de inleiding: Hoe algoritmes ons dagelijks leven sturen ›

Vervoer

Techbedrijven zijn dol op locatiedata en bewegings­gegevens, hoe gedetailleerder hoe beter. Zo ‘ziet’ Google hoe lang mensen op zoek zijn naar een parkeerplaats en leert Apple van je iPhone waar je werkt. Je kunt bewijzen dat je veilig rijdt en erop vertrouwen dat je om de file geleid wordt, of de snelste liftcabine voorgeschoteld krijgt. Maar welke algoritmes bepalen wat veilig is of wie er voorrang krijgt in de de file of in lift?

Lees ook:

  1. Hoe omzeilt TomTom de files?

  2. Hoe bepaalt de verzekeraar hoe veilig jij rijdt?

  3. Hoe bepaalt de lift wie voorrang krijgt?

  4. Hoe weet Google hoe lang je moet wachten?

Media

Kun je smaak in statistiek vatten? De grote streaming-diensten doen niet anders. Ze proberen een breed publiek inhoud op maat aan te bieden met behulp van algoritmes. Spotify en Netflix doen het door mensen met dezelfde voorkeuren te clusteren. Nieuwsdienst Blendle probeert er juist voor te zorgen dat je andere dingen ziet dan je zou verwachten. Apple laat personificatie grotendeels achterwege: Apple News is gebaseerd op locatie, niet of nauwelijks op je klikgedrag.

Lees ook:

  1. Hoe weet Netflix welke serie je wilt zien?

  2. Hoe weet Blendle wat jij wilt lezen?

  3. Hoe stelt Apple jouw nieuws samen?

  4. Waarom is dit het volgende liedje dat Spotify je laat horen?

Shoppen

Amazon is de webwinkel die groot werd met het doen van aanbevelingen op basis van wat anderen kochten. Wat zijn de trucs waarmee online winkels en reisbureaus je tot een aankoop verlokken? Achter de schermen wordt consumentengedrag in datapatronen gegoten, om beter in te schatten wat je wilt of hoe je te beïnvloeden bent. Ieder mens is uniek, maar bij elkaar zijn we toch redelijk voorspelbaar.

Lees ook:

  1. Hoe verleidt Booking.com je snel een hotelkamer te boeken?

  2. Hoe weet Bol.com wat je wilt kopen?

  3. Retargeting: hoe lang blijven mijn schoenen me achtervolgen?

  4. Hoe Facebook advertenties héél precies op maat maakt

Fraude

Algoritmes zijn bij uitstek geschikt om conclusies te trekken uit grote hoeveelheden data. Daardoor kunnen ze sneller ‘verdachte’ elementen opsporen, of het nou gaat om betalingsverkeer, uitkeringsgerechtigden of winkeldiefstal. De regels voor wat nou eigenlijk verdacht gedrag is, worden echter wel door mensen bepaald.

Lees ook:

  1. Hoe beschermt de bank je tegen oplichters?

  2. Hoe controleert de gemeente of jij fraudeert?

  3. Hoe bepaalt de zelfscankassa welke klanten gecontroleerd worden?

Naar aanleiding van deze productie organiseerde NRC op donderdag 12 april een avond in Pakhuis de Zwijger in Amsterdam. Terugkijken kan hier.

Redactie Marc Hijink en Eva de Valk, animatie Midas van Son, Harrison van der Vliet en Elze van Driel, illustraties Midas van Son, vorm Koen Smeets.