Cursor/38 Onderzoek

/Voorpagina
/Mensen
/Nieuws
/Cultuur
/Studentenleven
/Achtergrond
/English page
/Onderzoek
/Reportage
/Ruis
/Harmpje
/Colofon

/Faculteits Berichten
/Vacatures
/Mensa
/Oude cursors
/pdf formaat
/TUE
/Zoeken:

jaargang 42, 15 juni 2000

Onderzoek

Untitled Document Knippen en plakken met
klanken

Esther Klabbers in ŽŽn van de studioÕs van het IPO. Foto: Bram Saeys
Spraakgeneratie/Brigit Span
Spraaktechnologie voor computersystemen is volop in ontwikkeling. Talloze toepassingen zijn mogelijk voor sprekende computers, zoals informatiesystemen voor bioscopen, een pratende robot of een virtuele autoverkoopster. Toch zal de computer nooit zo goed kunnen spreken als de mens, aldus dr. Esther Klabbers die bij het IPO onderzoek deed naar spraakgeneratie en daar 7 juni op promoveerde.
Klabbers zit vlak voor haar promotie als het interview wordt gehouden. De telefoon gaat over in haar kamer bij het IPO, Center for User-System Interaction op het TUE-terrein. Klabbers krijgt de vraag hoe ze haar promotie geregeld wil hebben. “Informeel, met paranimfen”, antwoordt ze. “Oh ja, ik wilde nog vragen of mijn stellingen zijn goedgekeurd”, luidt haar wedervraag. Er verschijnt een glimlach op het gezicht van Klabbers. “Alles kan doorgaan, de stellingen kunnen bij mijn boekjes worden gevoegd en die kunnen worden verstuurd”, meldt ze als ze heeft opgehangen.
Klabbers heeft als AIO vier jaar bij het IPO gewerkt aan een NWO-project (Nederlandse organisatie voor Wetenschappelijk Onderzoek). Het IPO werkt samen met de Rijks Universiteit Groningen, de Universiteit van Amsterdam en de Katholieke Universiteit Nijmegen. Er zijn themaleiders aangesteld die onderling overleggen over de voortgang van de verschillende onderzoeken. Een persoon regelt de integratie van de componenten.
Klabbers houdt zich bezig met spraakgeneratie en blijft dat de komende twee jaar ook nog doen. Ze is voor die periode aangesteld aan de TUE als postdoc.
Het promotie-onderzoek van Klabbers heeft te maken met het gesproken dialoog systeem Ovis (Openbaar Vervoer Informatie Systeem). Via dit systeem kunnen reizigers informatie krijgen over treinverbindingen. “Het bestond al bij Nederlandse Spoorwegen, maar dan als commerciële variant. Onze opzet is geweest de technologie achter dit systeem te verbeteren”, aldus Klabbers.

Stappen
Het Ovis-systeem werkt volgens een aantal stappen. Allereerst wordt de uiting van de gebruiker herkend door middel van spraakherkenning. De taalinterpretatie leidt hieruit een gebruikersvraag af. De dialoogmanager bekijkt welk antwoord er kan worden gegeven en de taalgeneratie, die een daadwerkelijke uiting genereert, bepaalt de formulering van dit antwoord. “Het volgende punt is waar ik me mee bezig heb gehouden: de spraakgeneratie. Die spreekt de uiting uit.”

Klabbers heeft gekeken naar twee soorten van spraakuitvoer, frasenconcatenatie en difoonsynthese. Om met het eerste te beginnen: frasenconcatenatie is eigenlijk het aan elkaar plakken van stukken zinnen. Bijvoorbeeld zoals dat gebeurt bij de Girofoon. “Je hoort duidelijk dat er stukken aan elkaar worden geplakt. In commerciële systemen doen ze het heel simpel; alle woorden worden afzonderlijk uitgesproken. Ik heb alle woorden in een context gezet en in meerdere versies opgenomen.” Ze heeft hierbij rekening gehouden met de positie van woorden in de zin, accenten op woorden en de intonatie.
Klabbers laat op haar computer een stuk ingesproken tekst horen over een treinverbinding. Het is te horen dat het geen mens is die praat, maar het klinkt bijna net zo goed als natuurlijke spraak. “Bij het evaluatie-experiment waar mensen dit te horen kregen, bleek dat het bijna menselijk klinkt”, aldus Klabbers. “Het voordeel van deze spraakmethode is dat het goed klinkt. Het nadeel is dat je het niet kunt gebruiken in een uitgebreid systeem waar veel woordcombinaties moeten worden gemaakt. Bij bijvoorbeeld treininfo kan het prima, omdat je maar een beperkte database nodig hebt die niet voortdurend verandert. Als je daarentegen frasenconcatenatie wilt gebruiken bij een film informatielijn, is het ondoenlijk veel werk. Er draaien steeds nieuwe films en er verandert voortdurend iets. Daar leent het systeem zich niet goed voor.”

Aan elkaar plakken
Daarom heeft Klabbers gekeken naar een andere spraakmethode: difoonsynthese. Hierbij worden heel kleine spraaksegmenten opgenomen die precies de overgang van de ene naar de andere klank weergeven. “Dit is veel kleiner dan woorden. Als je bijvoorbeeld het woord IPO wilt synthetiseren, heb je vier difonen nodig voor die drie letters.” De Nederlandse taal kent ongeveer 2000 difonen waarmee alle mogelijke combinaties kunnen worden gevormd. “Je plakt de stukjes aan elkaar. Elke difoon wordt monotoon opgenomen, later worden de duur en intonatie berekend en erover heen gelegd. Dan heb je echt synthetisch klinkende spraak.” De methode bestond al, de promovenda heeft een nieuwe difoondatabase opgenomen. Als ze hetzelfde tekstje over de treinverbinding laat horen, maar nu met difoonsynthese uitgesproken, klinkt de tekst hakkelig en een beetje Zuid-Afrikaans. “Het probleem is dat dit systeem het spraaksignaal vervormt. Dat valt nog te verbeteren”, erkent Klabbers, maar daar houdt ze zich zelf niet mee bezig. “Ik heb enkele verbeteringen aangebracht op het segmentele en prosodische vlak. De eerste verbetering bevindt zich op het vlak van hoorbare discontinuïteiten als difonen aan elkaar worden geplakt. “Het woord doek bestaat bijvoorbeeld uit ‘doe’ en ‘oek’. Midden op de ‘oe’ zit de grens. Soms is de overgang slecht wat je hoort als een soort klik. De spraak is dan ook minder vloeiend. Wij kijken of we de hoorbare discontinuïteit kunnen voorspellen met een afstandsmaat. Hiervoor hebben we proefpersonen gevraagd of ze de discontinuïteit hoorden. Aan de hand hiervan hebben we nieuwe difonen opgenomen.
De prosodische verbetering betreft een nieuw model waarmee de duur van een klank kan worden berekend. Daarvoor is Klabbers drie maanden naar New Yersey geweest.

Liever bellen met computer
Het demonstratiesysteem van Ovis ligt er. Eind juni wordt er een workshop gehouden voor alle onderzoekers die zich hiermee hebben bezig gehouden. Ovis wordt hier gedemonstreerd en er worden presentaties gegeven. “Deze opdracht was heel multidisciplinair. Ik heb veel geleerd over andere zaken dan mijn vakgebied.” Overigens verkiest Klabbers bellen met de computer boven persoonlijk contact. “Dat is vaak efficiënter.” Als ze mag kiezen tussen de twee spraakmethodes die ze heeft onderzocht, kiest ze voor frasenconcatenatie. “Dat klinkt het beste.”

Het project is gefinancierd door NWO, maar ook deels door bedrijven zoals KPN en Philips. “Het is aan de bedrijven of ze daadwerkelijk iets met de uitkomsten gaan doen.” Klabbers is alweer een stapje verder; ze gaat zich de komende twee jaar als postdoc bezighouden met de nieuwste spraaktechnologie, die de door haar onderzochte manieren overschaduwt. Deze wordt unit selection genoemd en ligt tussen frasenconcatenatie en difoonsynthese in. Het werkt met een database van complete zinnen waarin zo groot mogelijke stukken aan elkaar worden geplakt. Toch vindt ze de afgelopen vier jaar geen weggegooide tijd: “Ik heb heel veel geleerd over werken met databases, dat zijn dingen waar ik bij unit selection veel aan heb. Bij het bedrijf Lernhout en Hauspie in België zijn ze hier ook mee bezig, maar om onderzoek aan verbeteringen te kunnen doen, moeten we dit zelf ontwikkelen. Bij dat bedrijf zijn overigens veel vacatures, maar het trekt me niet echt om helemaal in Ieper te zitten tegen de Franse grens aan. Bovendien werk ik nu met veel plezier op het IPO aan het vervolgonderzoek.”
Klabbers ziet veel mogelijkheden voor spraakgeneratie: “Denk aan een combinatie van spraak en beeld. Zo is er al een virtuele autoverkoopster op de computer die informatie over verschillende auto’s kan geven. Een elektronische tv-gids die je vertelt wat er op televisie komt. Er zijn veel mogelijkheden, maar voorlopig zijn de toepassingsgebieden nog beperkt. Een computer kan nooit echt een conversatie met je voeren. Daarvoor heeft ie niet genoeg kennis en blijft de pc toch beperkt.”/.

Website Cursor