Databank voor gesproken woord

NIJMEGEN, 2 OKT. Onder aanvoering van het Max Planck Instituut in Nijmegen wil een groep taalkundigen uit Nederland en België een databank aanleggen van tien miljoen gesproken woorden Nederlands. Minister Ritzen (Onderwijs) heeft zeven miljoen gulden beschikbaar gesteld. Naar verwachting betaalt België drie miljoen gulden mee aan het project, dat tien miljoen kost.

Volgens directeur P. Levelt van het instituut is een openbaar toegankelijke databank van wezenlijk belang. Taalpsychologen en taalpedagogen kunnen veel beter onderzoeken in welke context een woord wordt gebruikt en hoe vaak woorden in een bepaalde constructie voorkomen. Er is een soortgelijke databank voor geschreven Nederlands, maar van daaruit werken de wetenschappers, zegt Levelt, voornamelijk vanuit intuïtie.

Het instituut wil ook het “raadselachtige proces van het taalverstaan” nader onderzoeken. Levelt: “Anders dan bij het schrift kent de taal geen ruimte tussen de opvolgende woorden. Dat hebben we niet in de gaten als luisteraar, en we lossen het schijnbaar gemakkelijk op. Als iemand 'trompet' zegt, denkt niemand dat de spreker 'trom' en 'pet' bedoelt. Toch kunnen we aantonen dat die woorden wel geactiveerd worden in de hersenen. We willen graag begrijpen hoe dit werkt.”

Een belangrijk voordeel van de databank zijn de concrete toepassingen. Zo kunnen uitgevers leerboeken maken die beter op de praktijk zijn geënt. “Er is veel kritiek op het niveau van het Nederlandse onderwijs. En met de komst van meer kinderen die het Nederlands als tweede taal spreken, wordt het belangrijker iets aan die kritiek te doen. Aan de hand van de databank kun je hen de woorden leren die het meest voorkomen. Zo leren ze de taal beter.”

In toenemende mate maken bedrijven en instellingen gebruik van spraaktechnologie - en juist computers hebben wel moeite met het gebrek aan ruimte tussen woorden. In Engeland, Duitsland en Frankrijk wordt veel geld gestoken in onderzoek naar verbetering van deze toepassing. Als Nederland niet volgt, ontstaan er volgens Levelt problemen.

De tien miljoen woorden worden onder meer opgenomen met recorders in trams, hotels en winkels.