De computer zingt al goed genoeg voor het achtergrondkoortje

Begin volgend jaar lanceert de divisie `Musical Instruments' van het Japanse concern Yamaha `Vocaloid', een softwarepakket dat de computer liedjes laat zingen. Notenschrift en erbij geschreven woorden worden omgezet in zang. Op internet staan inmiddels verschillende demo's – in het Japans en van Engelstalige achtergrondkoortjes – en inderdaad, het is net of er echte mensen zingen.

Daarmee is de laatste grote hobbel naar de geheel elektronische uitvoering van Beethovens en Mahlers negende symfonie wel genomen. Het simuleren van bestaande muziekinstrumenten door digitale klankopwekkingstechnieken heeft afgelopen jaren een grote vlucht genomen, maar de technieken die de menselijke stem nabootsten lieten nog altijd veel te wensen over. Weliswaar is het al enige tijd mogelijk om op de computer de a, o, e, u en i en andere klinkers met hun overgangen te laten produceren, maar pogingen om de computer woorden en zinnen te laten uitspreken of liedlijnen te laten zingen, bleven steken in de experimentele sfeer, artikulatorische synthese geheten.

Zo kan een `p'-klank worden verkregen met een gefilterd ruisje, maar dit met een `a'-klank verbinden zodat je `pa' hoort, vereist ingewikkelde interpolatietechnieken. Laat staan als er `pap' moet worden gezegd of gezongen. De laatste `p' heeft immers een heel ander klankkarakter dan de eerste. Hoewel deze door de computer gesproken of gezongen woorden verstaanbaar zijn, en het af en toe ook nog wel aardig klinkt, worden ze door het menselijke oor door allerlei meeklinkende artefacten toch meestal feilloos als `computerstem' geïdentificeerd. Dit komt door onze extreme gevoeligheid voor door de mens geproduceerde geluiden.

Het team van het Yamaha Advanced System Development Centerteam is gestart met het maken van opnamen van professionele zangers en zangeressen die speciaal geconstrueerde frasen en ook onzin-woorden moesten zingen. Plus alle transities tussen de letters en woorden. Vervolgens werden deze frasen onderverdeeld, geanalyseerd op hun frequenties en in een database gestopt. Belangrijk bij het zingen is echter ook het vibrato; mensen hebben zelfs moeite een zangstem als zodanig te herkenen als deze geen enkel vibrato heeft. Dit vibrato-element en andere expressieve aspecten, zoals glissando, werden in een aparte database ondergebracht.

Noteer je nu op de computer noten en de daarbij behorende woorden, dan start `Vocaloid' een synthesesysteem op (gebaseerd op een database van één stem), waarna de beoogde zangklanken plus expressies uit de database worden opgehaald. Moet de computer `pap' zingen, dan wordt om te beginnen de eerste `p' opgehaald, zijnde de klank waarmee het woord begint, en dan de slot-'p'. Daarna komen de transities tussen de letters aan de beurt. Technische gezien komt er meer bij kijken, zoals het vermijden van het `Donald Duck'-effect op het moment dat een stem een octaaf stijgt, maar ook dit probleem heeft Yamaha opgelost.

    • Harm Visser