Prosodische frasering moet computerspraak begrijpelijker maken

door Han Konings

In sf-films spreken computers altijd met de meest welluidende stemmen tot hun gebruikers. De computerspraak is niet of nauwelijks van het menselijk stemgeluid te onderscheiden. Zo ver is men in werkelijkheid echter nog niet met synthetische spraak. Dr. Angelien Sanderman, werkzaam bij het Instituut voor Perceptie Onderzoek, promoveerde dinsdag op een proefschrift waarin zij laat zien hoe met behulp van prosodie (spraakmelodie, accentuering, temporele structuur, en dergelijke) computerspraak acceptabeler en begrijpelijker overkomt. Momenteel is zij projectleider van het onderzoekprogramma Speech Output Technology. Dit is een contractonderzoek in opdracht van Philips, die synthetische spraak wil gaan toepassen in multimedia-systemen.

Sanderman, afgestudeerd in spraak/taal-pathologie aan de KU Nijmegen, vertelt om te beginnen dat haar onderzoek zowel een fundamentele als een toepassingsgerichte invalshoek heeft. Volgens haar is synthetische spraak op dit moment goed van kwaliteit, maar nog niet goed genoeg voor in applicaties. ‘Mensen hebben geen probleem om synthetische spraak te verstaan’, zegt Sanderman, ‘maar het wordt wel ervaren als erg saai en vermoeiend. Veel mensen haken na verloop van tijd af. Je moet je erg concentreren om de boodschap te kunnen blijven begrijpen. Prosodische frasering speelt bij het mooier en begrijperlijker maken van computerspraak een zeer belangrijke rol.’

Ophakken
In wezen komt het er op neer dat mensen teksten veel sneller begrijpen wanneer die netjes opgehakt zijn in stukjes en niet als een monotone brij over de toehoorder uitgestort worden. Sanderman heeft dit ook daadwerkelijk getest in een van haar experimenten. Proefpersonen kregen op schrift een vraag voorgelegd en men liet ze daarna teksten met en zonder prosodische frasering horen, waaruit het antwoord op de vraag te halen was. Was de tekst netjes gefraseerd, dan kwam het antwoord ook aanmerkelijk sneller. Dit onderzoek heeft veel fundamenteel inzicht opgeleverd, waarmee belangrijke regels voor de verbetering van synthetische spraak opgesteld kunnen worden. Volgens Sanderman is het grappig om te zien dat kinderen prosodie al vrij vroeg onder de knie hebben en zich dan pas gaan concentreren op de spraakklanken, terwijl men bij de ontwikkeling van synthetische spraak net andersom te werk is gegaan. Eerst de zorg voor perfecte spraakklanken en dan nu pas aandacht voor de prosodie. Momenteel kent synthetische spraak nog niet echt veel toepassingen, maar Sanderman is er van overtuigd dat spraaktechnologie in de toekomst steeds meer haar intrede zal doen op het werk en in de thuissituatie. Als voorbeeld noemt zij de toepassing ervan in een zogenaamd traffic routing system in de auto. Sanderman: ‘Je vraagt dat systeem om aanwijzingen om naar een bepaalde straat te komen. Die worden je dan voortdurend verbaal gegeven, totdat je de betreffende straat inrijdt. Ook zou je door zendertjes langs de weg, via je autoradio verbaal gewaarschuwd kunnen worden voor naderende files of gladheid.’ Synthetische spraak heeft volgens haar duidelijk een toegevoegde waarde in situaties waarbij handen en ogen druk bezig zijn. Zo ziet zij ook zeker mogelijkheden in een vliegtuigcabine, waarbij het controlepaneel zo complex is geworden dat synthetische spraak hier uitstekend ondersteunend bij kan werken. Voor blinden liggen de toepassingsmogelijkheden voor de hand.

Kwaliteit
Momenteel voert Sanderman een contractonderzoek uit voor Philips, waarbij zij intensief samenwerkt met de afdeling Sound & Vision. Ook dit onderzoek is gericht op kwaliteitsverbetering van computerspraak. Alleen focust men zich nu niet zozeer op het puur voortbrengen van syntheti-sche klanken, maar onder andere op speech concatenation. Dit is een iets andere techniek, waarbij men werkt met grotere bouwstenen, zoals afzonderlijke woorden en/of zinsfrasen. De flexibiliteit, die bij puur synthetische spraakklanken het grootst is, neemt daardoor enigszins af, maar de kwali- teit van de uiting verbetert aanzienlijk. De beste kwaliteit bereikt men natuurlijk door prerecorded speech, waarbij de flexibiliteit echter totaal ontbreekt.
Over het onderzoek, dat in eerste instantie één jaar gaat lopen, vertelt Sanderman dat het bij Philips binnen een groter kader valt: het zogenaamde Ease-of-Use-project. Dat onderzoeksproject is bedoeld om methoden te ontwikkelen die ervoor zorgen dat multimedia-systemen voor de consument hanteerbaar blijven. Dat kan met plaatjes, met geluidjes, met de tastzin, maar ongetwijfeld ook met synthetische spraak.
Op de vraag of wij over enige tijd bij thuiskomst door een apparaat synthetisch verwelkomd zullen worden, zegt Sanderman lachend: ‘De toekomst is koffiedik kijken en het is ook maar zeer de vraag wat de consument nu eigenlijk wil. Maar dat we vaker met computerspraak te maken zullen krijgen, staat wel vast.’