Hoe YouTube per minuut 400 uur aan geüploade filmpjes controleert

Copyright Websites moeten alle media die bezoekers uploaden controleren op auteursrechten, vindt de EU. Onmogelijk, zeggen tegenstanders. Bij YouTube wordt al tien jaar gesleuteld aan een systeem dat geüploade bestanden automatisch controleert.

Wat je ook probeert, zodra je de video van je zoons verjaardagsfeestje probeert te uploaden, weigert YouTube het filmpje. Waarom?

„Het zou maar zo kunnen dat op de achtergrond een tv staat waarop een sportwedstrijd te zien is die je niet mag delen”, zegt Fabio Magagna. Hij werkt bij YouTube in Zürich aan Content ID, de techniek waarmee de grootste videosite ter wereld per minuut 400 uur aan geüploade filmpjes controleert.

Content ID kijkt of beelden overeenkomen met auteursrechtelijk beschermd materiaal dat rechthebbenden naar YouTube hebben gestuurd. Als er een ‘match’ is, kan de platenmaatschappij of filmstudio ervoor kiezen het bestand te laten verwijderen.

Dan gaat YouTube op zwart.

In Europa woedt een felle discussie over de nieuwe Europese auteurswetgeving. Een van de grootste twistpunten is het uploadfilter. Dat moeten websites installeren als ze gebruikers toestaan video’s, muziek of beelden te delen met de buitenwereld. Voor overtredingen zijn de sites straks zelf aansprakelijk als ze onvoldoende technische maatregelen hebben getroffen. Dit in tegenstelling tot in de VS, waar een controlemechanisme en een claimsysteem genoeg is om als site aan de wet te voldoen.

De nieuwe Europese copyrightwet, die zo’n filter verplicht stelt, is volgens tegenstanders een bedreiging voor de vrijheid van meningsuiting. De muziek- en filmindustrie ziet het uploadfilter juist als de enige manier om een einde te maken aan de inbreuk op hun rechten.

Eigen techniek

In het debat hoor je telkens één voorbeeld: YouTube. Hoe gaat ’s werelds grootste videosite om met illegale kopieën? Al tien jaar sleutelt eigenaar Google aan Content ID, een geautomatiseerd systeem dat controleert of de geüploade bestanden van ruim 1,5 miljard gebruikers aan iemand anders toebehoren. De techniek werd eerst geleend van een ander bedrijf, Audible Magic. Nu heeft YouTube zijn eigen techniek, en stak daar meer dan 100 miljoen dollar in.

Hoe werkt Content ID? Fabio Magagna geeft uitleg op het kantoor in Zürich. Het systeem is gebaseerd op voorbeeldbestanden of referenties die rechthebbenden naar YouTube sturen. Daarvan wordt een digitale ‘vingerafdruk’ gemaakt die wordt vergeleken met alle uploads. „We hebben nu voor meer dan 600 jaar aan zulke referentiebestanden.”

YouTube zoekt overeenkomsten in video en audio, en kijkt naar meegeleverde ‘metadata’, zoals de omschrijving. Het zoeken naar een match gebeurt zodra je je film uploadt.

YouTube probeert met name illegale streams van tv-programma’s te blokkeren. Het algoritme heeft geleerd om beelden te herkennen die expres vertimmerd worden om Content ID te omzeilen. De video’s worden bijvoorbeeld gekanteld, gespiegeld, versneld, van kleur veranderd of als een klein scherm in beeld vol animaties vertoond. Naarmate de resolutie hoger wordt, zijn er meer mogelijkheden om YouTube te flessen met beeld-in-beeldtrucs.

„Het is een wapenwedloop”, zegt Magagna. Zodra een nieuwe sluipweg wordt gevonden, voeden de YouTubers het algoritme van Content ID om de truc te herkennen en te blokkeren. „Dat vergt training; we kunnen niet zomaar wat voorbeelden over de schutting gooien.” YouTube’s controle werkt snel: live uitzendingen, zoals sportwedstrijden, kunnen binnen één minuut worden beoordeeld. Het probleem bij sport is dat spelsituaties, camerashots en spelers veel op elkaar lijken. Er is meer context nodig om fouten te voorkomen.

YouTube analyseert geen losse videoframes, maar een reeks beelden – „minder dan vijf minuten”. Volgens Magagna neemt het algoritme in 99,8 procent de juiste beslissing. Dus: de kans op een onterechte claim is 0,2 procent.

Moeilijker dan Shazam

Content ID analyseert ook het geluid om kopieën te herkennen. Dat is ingewikkelder dan bijvoorbeeld muziekherkenningsdienst Shazam, zegt Magagna: „Shazam moet een relatief eenvoudig probleem oplossen: herken een melodietje dat hooguit in een paar honderdduizend referentiebestanden kan zitten.” YouTube zoekt in miljarden bestanden naar meerdere matches. Gebruik je in een filmpje dezelfde opname, of maak je een nieuwe bewerking van een bestaande compositie? Dat probeert Content ID te achterhalen door de melodie te analyseren. De regels worden extra complex bij nagesynchroniseerde films: hetzelfde beeld, maar ander geluid per land.

Rechthebbenden kunnen ervoor kiezen wat YouTube moet doen als er een match is voor video, audio of beide: blokkeren, meeverdienen aan reclame of ‘tracken’, in de gaten houden.

Meeverdienen lijkt aantrekkelijk: de helft van de vergoedingen die YouTube aan platenmaatschappijen betaalt (voor reclame bij de muziekvideo’s) komt van clips die andere gebruikers uploadden. Maar de muziekindustrie vindt dat nog onvoldoende. Het geld komt ook niet altijd bij de juiste personen terecht.

Content ID is niet perfect, erkent Magagna. Hij geeft een voorbeeld uit 2012: een platenmaatschappij stuurde een liedje met vogelgeluid als referentiebestand in. YouTube blokkeerde vervolgens allerlei video’s met vogelgeluiden.

Nog een bekend voorbeeld: animatieserie Family Guy gebruikte een fragment uit een Nintendo-game, geüpload door een andere gebruiker. Vervolgens werd de video van de YouTube-gebruiker offline gehaald; die zou inbreuk maken op de rechten van Family Guy-producent Fox.

Oplichters kunnen via eigen referentiebestanden mensen afpersen, dreigend met een YouTube-blokkade. Anderen proberen juist advertentiegeld af te snoepen. De Duitse muzikant en YouTuber Christian Büttner, alias TheFatRat, was het slachtoffer van zo’n valse claim. „Are you f*cking kidding me, YouTube? this is my f*cking song!!!!”, twitterde hij. Zijn nummer The Calling werd geclaimd door een andere partij, die een remix van zijn hit als referentie had gestuurd naar YouTube.

Het probleem van YouTube, legt Büttner in een video uit, is dat het bedrijf zich buiten de onenigheden houdt en vrijwel alle zeggenschap geeft aan de partij die de claim indient. Zijn petitie om Content ID te ‘fixen’ is inmiddels onderschreven door 120.000 mensen.

Lees ook: YouTube Kids: hoe controleer je wat je kind kijkt?

Nog een manco: het lijkt erop dat een titel van een video voldoende aanleiding is om hem uit de lucht te halen. Een video van YouTuber Gus Johnson, die sprak over Queen’s hit Bohemian Rhapsody zonder het liedje te laten horen, werd door EMI geblokkeerd. Johnson zou inbreuk maken op het auteursrecht. Waar hij zich vooral boos over maakt: het was een handmatige claim. Geen computerfout, dus.

Achilleshiel

Het rechtensysteem blijft de achilleshiel van Content ID. Fabio Magagna: „Technologie is beperkt, we zijn afhankelijk van mensen die geen misbruik maken van het systeem.”

Vandaar dat YouTube-baas Susan Wojcicki campagne voert tegen Artikel 13. Zij wil niet dat haar bedrijf aansprakelijk wordt gesteld voor overtredingen van de auteurswet. Wojcicki’s redenatie: als websites aansprakelijk zijn voor overtredingen, zullen ze om claims te mijden alleen content accepteren van grote, vertrouwde partijen. Dat zet onafhankelijke filmmakers en muzikanten die YouTube gebruiken op achterstand. „Europese internetters zouden ook geen toegang hebben tot educatief materiaal, zoals taal- en natuurkundelessen en talloze how-to’s”, schreef Wojcicki op haar blog.

Als Content ID het mis heeft, hebben grote entertainmentbedrijven een legertje advocaten paraat. Kleinere contentmakers hebben die middelen niet en zullen minder snel protesteren tegen onterechte claims. Ook dat doet afbreuk aan het open karakter van YouTube.

Zo zit de videosite in een spagaat. Tegenover de entertainmentbranche moet YouTube volhouden dat Content ID goed werkt, maar in de strijd tegen Artikel 13 is juist de imperfectie van het systeem een krachtig argument.

YouTube zou alle snelheid verliezen als elk filmpje pas na een gedegen, deels handmatige, controle wordt gepubliceerd. Om met de tegenstanders van Artikel 13 te spreken: dan wordt online video weer net zo traag als gewone televisie.