Mens schiet computer te hulp in herkenning van verminkte tekens

Je ziet ze op veel plekken op internet, vooral bij websites waar je je moet registreren: Captchas. Dit zijn afbeeldingen die bestaan uit zes tot acht letters en cijfers die opzettelijk zijn vervormd, bijvoorbeeld door ze scheef te zetten, er een streep door te halen of door ze te laten ‘dansen’. Mensen hebben geen moeite om de Captchas correct te interpreteren, maar computers (nog) wel en dat is precies waar ze voor bedoeld zijn: het is een leestest om mensen en computers van elkaar te onderscheiden (Captcha staat voor ‘Completely Automated Public Turing test to tell Computers and Humans Apart’).

De Captcha is in 2000 bedacht door enkele wetenschappers van de Carnegie Mellon University in Pittsburgh, Pennsylvania, en werd in korte tijd een groot succes: momenteel worden er op internet dagelijks zo’n 100 miljoen Captchas door mensen geïnterpreteerd.

In 2007 lanceerden dezelfde wetenschappers reCaptcha, waarbij mensen geen willekeurige combinaties van letters en cijfers moeten interpreteren, maar woorden uit gescande boeken, kranten of tijdschriften die door de computer niet correct kunnen worden herkend. Op die manier, zo schrijven zij in Science van 14 augustus, zetten zij mensen in om ocr-fouten te verbeteren.

Ocr (Optical Character Recognition) wordt gebruikt om gescande afbeeldingen van documenten om te zetten in bewerkbare en doorzoekbare tekst. Wereldwijd worden dagelijks honderden oude boeken, kranten en tijdschriften gescand en ‘gelezen’ door ocr-software. Afhankelijk van de kwaliteit van het zetsel, varieert het slagingspercentage van 80 procent (bij oude boeken of kranten met ‘moeilijk’ zetsel) tot 99,7 procent (bij moderne boeken met ‘makkelijk’ zetsel).

ReCaptcha is het afgelopen jaar gebruikt door 40.000 websites, waaronder populaire sites als Facebook en Twitter. Daarbij werden door de wetenschappers uit Pittsburgh ruim 440 miljoen woorden aangeleverd die niet door ocr-software konden worden herkend.

Bij ReCaptcha moeten mensen telkens twee woorden invullen. Van één woord, het ‘controlewoord’, is door twee ocr-programma’s vastgesteld dat het correct is gespeld. Het andere woord, het ‘probleemwoord’, kon niet correct worden herkend door twee verschillende ocr-programma’s. Uit veiligheidsoverwegingen worden beide woorden nog eens extra vervormd, net als bij Captcha.

Toch hebben mensen geen problemen ze te herkennen, concluderen de wetenschappers uit Pittsburgh. In 99,1 procent van de gevallen kunnen ‘probleemwoorden’ correct worden geïnterpreteerd. Door deze menselijke correctie van ocr-fouten willen de ontwerpers van ReCaptcha de wereldwijde ontsluiting van kennis nader bevorderen. Voor meer informatie zie http://recaptcha.net/ (hier worden dagelijks 30 miljoen ‘probleemwoorden’ toegevoegd). Ewoud Sanders