Timmeren met taal

De personal computer rekent en wordt vooral gebruikt voor het verwerken van tekst. Taal en techniek vormen een gevoelige combinatie. Voor velen betekende de eerste kennismaking met de computer het verlies van de eigen naam.

Type Afganistan met behulp van een tekstverwerker en de kans is groot dat de ingebouwde spellingcontrole u de weg wijst naar Afghanistan. Doe hetzelfde in de zoekopdracht voor een zoekmachine op internet en maak kennis met vele pagina's over Afganistan. Maar de zoekopdracht zal ook resulteren in een aantal pagina's over Afghanistan. De makers van die pagina's hebben het h-loze Afghanistan als trefwoord in de broncode van hun pagina opgenomen en laten de zoekrobot op deze manier bij hun pagina stilstaan. Bovendien zijn er zoekmachines die vragen: `bedoelt u misschien Afghanistan?'

Taal en computer(gebruik) vormen een belangrijke combinatie. De computer is een rekenapparaat, maar wordt vooral als tekstverwerker gebruikt. Taaltechnologie speelt een steeds belangrijker rol. Deze `technologie zonder draadjes' richt zich op het automatisch verwerken en toepassen van natuurlijke taal. Taaltechnologie heeft een eigen plaats verworven binnen de informatie- en communicatietechnologie. In het flitsende ICT-wereldje bewegen mensen, die vaak worden gezien als verlengstuk van het technisch instrument, de computer. Taaltechnologen staan wat dichter bij de computergebruiker door middel van het laagdrempelige en minder technische instrumentarium: de taal.

Met een flinke portie gedrevenheid geven Theo van den Heuvel (technisch directeur) en Debbie Kenyon-Jackson (zakelijk directeur) leiding aan het Nijmeegse bedrijf Polderland (`Language & Speech Technology'). Het bedrijf heeft 10 werknemers. Zij beheersen 14 talen en hebben kennis van 100 talen: `van Zweeds tot Zoeloe'. Polderland zit onder meer achter de rode en groene kringeltjes in de tekstverwerker Word van Microsoft.

,,Taal is communicatie. Vragen naar het belang van taal is vragen aan een vis hoe belangrijk water is. Het is wat onze maatschappij definieert', vindt Theo van de Heuvel. ,,Verander de spelling en zie wat taal betekent. Taal gaat mensen aan het hart. Het is een bijzonder belangrijk stuk van jezelf', aldus Van den Heuvel. Debbie Kenyon-Jackson vult aan: ,,Gevoelens zijn zo belangrijk. En verschillend. Sommige mensen in sommige landen gaan gemakkelijker met taal om dan anderen.' Polderland maakte in opdracht van de Fundashon pa Planifikashon di Idioma een spellingcontrole voor het Papiamento op de Antillen. Er was daar geen spellingsvoorschrift, zoals een `Groen boekje'. Van den Heuvel: ,,Het was alsof we een daad van terreur hadden gepleegd. Mensen met Arubaanse roots spreken een ander Papiamento dan op Curaçao. De suggestie dat er een gelijke spellingcontrole kon zijn voor alle eilanden maakte mensen razend.'

Die gevoeligheid speelt een rol bij het maken van software voor spellingcontrole. Volgens Van den Heuvel zijn de wensen bij het maken van proofing tools duidelijk anders dan bij het maken van `gewone' software. Gebruikers vinden het niet prettig om iedere keer hun eigen naam, adres en soms plaatsnaam als fout aangegeven te zien. Maar software met schier eindeloze lijsten van wat goed en fout is, lijkt niet de oplossing. Van den Heuvel: ,,Met spellingcontrole onderdrukken we ruis. Belangrijk is een goede balans te vinden. Je moet creatief bezig kunnen blijven zijn. Een huisarts moet ook een brief kunnen schrijven zonder een woud aan rode kringeltjes.'

Polderland voelt zich niet zo verantwoordelijk voor de door sommigen als irritant ervaren rode en golvende streepjes. ,,Wij bieden woorden aan, Microsoft maakt de interface', aldus Theo van den Heuvel. Goede instelling van de programmatuur kan veel irritatie wegnemen. Zo worden sommigen bij het schrijven van brief of artikel tot de orde geroepen met de uitroep `Schrijftaal!'. Het gevolg van een over het hoofd geziene instelling, waarvan er vele zijn. Een intern onderzoek van het toetsenbord is niet nodig om te zien waarom het veelvuldig getikte voor als door op het scherm verschijnt. Het uitzetten van de autocorrectie is een acceptabele eerste oplossing.

Die verschillende instellingen zijn nodig omdat er niet één taal is. ,,Engels en Duits bestaan niet, het gaat om mijn Engels en mijn Duits. Mijn kinderen spreken volwassen Engels en het Nederlands van kinderen', aldus de uit het Verenigd Koninkrijk afkomstige Debbie Kenyon-Jackson. Van den Heuvel vult aan met het voorbeeld dat een chirurg en een patiënt ieder een eigen interpretatie van het woord `hernia' zullen hebben, waarbij de medicus eerder zal denken aan een scheur in het middenrif en een patiënt aan de pijn in zijn rug.

Bij het maken van software heeft Polderland geen landen zoals Nederland en Amerika op het oog, maar inwoners van die landen: kinderen, allochtonen en mensen die dialect spreken. Een Fransman in Nederland maakt nu eenmaal andere fouten dan een Engelsman die de Nederlandse taal beproeft.

De huidige manier om rekening te houden met verschillend gebruik van de taal zijn lijsten met uitzonderingen. In Word heten ze `custom.dic'; ze geven de gebruiker de mogelijkheid veel voorkomende foutsignaleringen te voorkomen door eigen woorden in te voeren. Microsoft leverde in het verleden ook aanvullende lijsten met wetenschappelijke, medische en technische begrippen. Theo van den Heuvel vindt de `custom.dic's' noodoplossingen. ,,Het probleem wordt naar de gebruiker doorgeschoven', meent hij. Voor de grammatica vormen dit soort lijsten geen oplossing. In tegenstelling tot de wettelijke grondslag van de spelling is grammatica veel vrijer: ,,Er is geen custom grammatica.'

De toekomst van de tekstverwerking en de rol van de taalhulp daarin zal er een zijn waarbij interactie tussen gebruiker en programma regelt op wat voor manier er moet worden geholpen. De software stelt de taal vast waarin wordt geschreven, proeft de manier van schrijven, stelt vragen, weegt de antwoorden en stelt de mate van hulpverlening vast. Zo zal bij jonge kinderen wat meer op d/t fouten worden gelet en zal de groenteboer niet veelvuldig worden geholpen de vaak verkeerd getypte lettercombinatie sla in als om te zetten.

Van den Heuvel: ,,Wij bouwen auteurshulpmiddelen. Goede software is onzichtbaar. Je wordt er pas mee geconfronteerd als het irriteert. Debbie Kenyon-Jackson vult aan: ,,maar het blijft een hulpmiddel waarbij je moet blijven opletten. Net als bij de kassa van de supermarkt: rekenen hoeft niet meer, opletten blijft nodig'.

Software voor spellingcontrole beoogt een eindresultaat waarbij de taal correct wordt gebruikt. Bij het starten van een zoekopdracht op internet is het net andersom. Althans, dat zou moeten. De software zou zodanig tolerant moeten zijn dat verkeerd gespelde zoekopdrachten tot een goed resultaat leiden. Dat is meestal niet het geval. Volgens de mensen van Polderland moet er sprake zijn van fonetische tolerantie (`klinkt als'), moet gekeken worden naar morfologisch [morfologie = leer van de woordvorming] verwante woorden. Huis moet ook goed zijn voor huizen, kaas voor kazen en vis zou niets met vivisectie te maken moeten hebben. Van den Heuvel: ,,Nu worden veel wildcards gebruikt. En wildcards zijn noodoplossingen. Het probleem wordt bij de gebruiker gelegd. Je moet kunnen zoeken op een `talig-verstandige' manier.' Op hun website www.polderland.nl kan software voor `SmartMatch' worden gedowndload, waarmee een idee wordt gegeven hoe goed zoeken zou kunnen werken.

Taaltechnologie beperkt zich niet tot geschreven taal. Krantenpagina's kunnen worden omgezet voor blinden en slechtzienden. Het Nijmeegse bedrijf maakt een voorziening waarbij de krant wordt omgezet in braille, groot lettertype en in het voorlezen ervan. Naar gelang de mate van handicap kiest de slechtziende een optie.

Bij het converteren van bladmuziek naar een voor blinden toegankelijke manier om kennis te nemen van geschreven muziek, kan taaltechnologie behulpzaam zijn. In opdracht van een instituut voor blinden en slechtzienden werd een programma gerealiseerd waarbij via een tussenformaat het muziekschrift wordt omgezet naar tekst- en MIDI-bestanden. De tekst wordt door middel van een spraaksyntheseprogramma voorgelezen en afgewisseld met MIDI-geluidsfragmenten.

Unified messaging vormt een nieuwe uitdaging voor de taaltechnoloog. Deze koppeling van telefoon, fax en elektronische post vraagt om het omzetten van tekst naar spraak en omgekeerd. De eerste voorzichtige stappen gingen vaak gepaard met een robotachtig voorlezen van tekst. Dat is niet nodig. Goede software herkent afkortingen, verwijdert accenttekens, maar gebruikt ze bij de omzetting wel en gaat op een goede manier met valuta, data en telefoonnummers om. En uiteindelijk dient de tekst met de juiste intonatie ten gehore te worden gebracht, zodat bijvoorbeeld het Engelse `computer' een andere melodielijn krijgt dan het vlak uitgesproken `computer' in het Nederlands. Op die manier is het mogelijk met een taalgeneratiemodule een spraakgestuurd route-informatiesysteem te ontwerpen, waarbij computerdata worden omgezet in goed lopende en prettig leesbare tekst. Of een voorgelezen weerbericht samen te stellen aan de hand van numerieke metereologische data.

Geen monotoon voorgelezen verwachting, maar met een intonatie die even veranderlijk is als het weer zelf kan zijn.