/Voorpagina /Mensen /Nieuws /Cultuur /Studentenleven /Achtergrond /English page /Onderzoek /Reportage /Ruis /Harmpje /Colofon |
/Faculteits Berichten /Vacatures /Mensa /Oude cursors /pdf formaat /TUE |
jaargang 42, 15 juni 2000 Onderzoek |
klanken
Spraakgeneratie/ Brigit SpanSpraaktechnologie voor computersystemen is volop in ontwikkeling. Talloze toepassingen zijn mogelijk voor sprekende computers, zoals informatiesystemen voor bioscopen, een pratende robot of een virtuele autoverkoopster. Toch zal de computer nooit zo goed kunnen spreken als de mens, aldus dr. Esther Klabbers die bij het IPO onderzoek deed naar spraakgeneratie en daar 7 juni op promoveerde. Klabbers zit vlak voor haar promotie als het interview wordt gehouden. De telefoon gaat over in haar kamer bij het IPO, Center for User-System Interaction op het TUE-terrein. Klabbers krijgt de vraag hoe ze haar promotie geregeld wil hebben. “Informeel, met paranimfen”, antwoordt ze. “Oh ja, ik wilde nog vragen of mijn stellingen zijn goedgekeurd”, luidt haar wedervraag. Er verschijnt een glimlach op het gezicht van Klabbers. “Alles kan doorgaan, de stellingen kunnen bij mijn boekjes worden gevoegd en die kunnen worden verstuurd”, meldt ze als ze heeft opgehangen. Klabbers heeft als AIO vier jaar bij het IPO gewerkt aan een NWO-project (Nederlandse organisatie voor Wetenschappelijk Onderzoek). Het IPO werkt samen met de Rijks Universiteit Groningen, de Universiteit van Amsterdam en de Katholieke Universiteit Nijmegen. Er zijn themaleiders aangesteld die onderling overleggen over de voortgang van de verschillende onderzoeken. Een persoon regelt de integratie van de componenten. Klabbers houdt zich bezig met spraakgeneratie en blijft dat de komende twee jaar ook nog doen. Ze is voor die periode aangesteld aan de TUE als postdoc. Het promotie-onderzoek van Klabbers heeft te maken met het gesproken dialoog systeem Ovis (Openbaar Vervoer Informatie Systeem). Via dit systeem kunnen reizigers informatie krijgen over treinverbindingen. “Het bestond al bij Nederlandse Spoorwegen, maar dan als commerciële variant. Onze opzet is geweest de technologie achter dit systeem te verbeteren”, aldus Klabbers.
Stappen
Klabbers heeft gekeken naar twee soorten van spraakuitvoer, frasenconcatenatie en difoonsynthese. Om met het eerste te beginnen: frasenconcatenatie is eigenlijk het aan elkaar plakken van stukken zinnen. Bijvoorbeeld zoals dat gebeurt bij de Girofoon. “Je hoort duidelijk dat er stukken aan elkaar worden geplakt. In commerciële systemen doen ze het heel simpel; alle woorden worden afzonderlijk uitgesproken. Ik heb alle woorden in een context gezet en in meerdere versies opgenomen.” Ze heeft hierbij rekening gehouden met de positie van woorden in de zin, accenten op woorden en de intonatie. Klabbers laat op haar computer een stuk ingesproken tekst horen over een treinverbinding. Het is te horen dat het geen mens is die praat, maar het klinkt bijna net zo goed als natuurlijke spraak. “Bij het evaluatie-experiment waar mensen dit te horen kregen, bleek dat het bijna menselijk klinkt”, aldus Klabbers. “Het voordeel van deze spraakmethode is dat het goed klinkt. Het nadeel is dat je het niet kunt gebruiken in een uitgebreid systeem waar veel woordcombinaties moeten worden gemaakt. Bij bijvoorbeeld treininfo kan het prima, omdat je maar een beperkte database nodig hebt die niet voortdurend verandert. Als je daarentegen frasenconcatenatie wilt gebruiken bij een film informatielijn, is het ondoenlijk veel werk. Er draaien steeds nieuwe films en er verandert voortdurend iets. Daar leent het systeem zich niet goed voor.”
Aan elkaar plakken
De prosodische verbetering betreft een nieuw model waarmee de duur van een klank kan worden berekend. Daarvoor is Klabbers drie maanden naar New Yersey geweest.
Liever bellen met computer
Het project is gefinancierd door NWO, maar ook deels door bedrijven zoals KPN en Philips. “Het is aan de bedrijven of ze daadwerkelijk iets met de uitkomsten gaan doen.” Klabbers is alweer een stapje verder; ze gaat zich de komende twee jaar als postdoc bezighouden met de nieuwste spraaktechnologie, die de door haar onderzochte manieren overschaduwt. Deze wordt unit selection genoemd en ligt tussen frasenconcatenatie en difoonsynthese in. Het werkt met een database van complete zinnen waarin zo groot mogelijke stukken aan elkaar worden geplakt. Toch vindt ze de afgelopen vier jaar geen weggegooide tijd: “Ik heb heel veel geleerd over werken met databases, dat zijn dingen waar ik bij unit selection veel aan heb. Bij het bedrijf Lernhout en Hauspie in België zijn ze hier ook mee bezig, maar om onderzoek aan verbeteringen te kunnen doen, moeten we dit zelf ontwikkelen. Bij dat bedrijf zijn overigens veel vacatures, maar het trekt me niet echt om helemaal in Ieper te zitten tegen de Franse grens aan. Bovendien werk ik nu met veel plezier op het IPO aan het vervolgonderzoek.” Klabbers ziet veel mogelijkheden voor spraakgeneratie: “Denk aan een combinatie van spraak en beeld. Zo is er al een virtuele autoverkoopster op de computer die informatie over verschillende auto’s kan geven. Een elektronische tv-gids die je vertelt wat er op televisie komt. Er zijn veel mogelijkheden, maar voorlopig zijn de toepassingsgebieden nog beperkt. Een computer kan nooit echt een conversatie met je voeren. Daarvoor heeft ie niet genoeg kennis en blijft de pc toch beperkt.”/. |