Cursor | Onderzoek

Computer met kennis van de wereld

27 november 2008 - Waarom geeft een zoekmachine niet à la minute precies het juiste antwoord dat bij de ingevoerde vraag hoort? Omdat de teksten waarin gezocht wordt in een natuurlijke taal geschreven zijn en de computer alleen kunstmatige talen kan interpreteren. Daarom moet de gebruiker zelf de gevonden pagina’s doorspitten naar relevante informatie. Tenzij het algoritme wordt ingezet dat Gijs Geleijnse heeft ontwikkeld. Tijdens zijn promotieonderzoek bij Philips Research ontwierp hij een systeem waarmee de computer zelfstandig de gewenste informatie uit het web haalt.

Gijs Geleijnse verdedigt op maandag 8 december om 16.00 uur zijn proefschrift ‘Information Extraction from the Web using a Search Engine’. Dit doet hij in zaal 5 van het Auditorium.
Foto: Bart van Overbeeke

‘Probeer kennis over de wereld uit het World Wide Web te halen.’ Met die onderzoeksopdracht begon Gijs Geleijnse vier jaar geleden aan zijn promotie. Daarvoor had hij een Holst-junior contract gekregen wat zoveel inhoudt dat hij vier jaar lang in de groep User Experiences van Philips Research zijn gang kon gaan. Het was wel een heel algemene vraag en het was nog niet duidelijk welke kant het op zou gaan. Het was namelijk nieuw voor Philips en zelfs nieuw voor de wereld om internetteksten op deze wijze te gebruiken. Inmiddels heeft het onderzoek van Geleijnse vier patenten opgeleverd en is er een algoritme ontwikkeld waarmee een zoekmachine op internet direct het juiste antwoord geeft op heldere vragen.

Dat lijkt simpeler dan het is. Een voorbeeld. Om de vraag ‘Wanneer is Gijs Geleijnse afgestudeerd aan de TU/e’? via het web te beantwoorden, pak je nu een zoekmachine als AltaVista, Yahoo of Google. Tik de kenmerkende woorden uit de vraag in het zoekvenster in en je komt uit op een opleidingsgids van Technische Wiskunde, melige citaten uit Supremum, het blad van studievereniging GEWIS, en een afstudeeropdracht van een heel andere Gijs. Zoeken met alleen de naam van de afstudeerder levert meer gegevens (22.100 hits), maar ook veel meer werk op. “Het probleem is dat alle teksten op het web in natuurlijke taal geschreven zijn zoals het Engels of het Nederlands”, legt Geleijnse uit. “De taal waarmee computerprogramma’s werken, is kunstmatig. En daardoor op maar één manier te interpreteren. Een natuurlijke taal heeft als nadeel dat hij voor meerdere uitleg vatbaar is. Een Nederlandse zin kan wel vijf betekenissen hebben, daar heeft een machine moeite mee. Ik heb nu een datastructuur ontworpen die de computer kan snappen. De kunst is om die informatie uit het web in die datastructuur te stoppen.”

Slimme producten
Het promotieonderzoek heeft betrekking op ‘ambient intelligence’. Daarin worden leefomgevingen elektronisch verrijkt met slimme producten, systemen en diensten die in dienst staan van het welzijn van de gebruiker. “Wanneer je wilt dat de apparatuur om je heen je aanvoelt, heeft die apparatuur wel kennis van de wereld nodig. Van het weer, of er files zijn en wat ook al weer de hoofdstad van Australië is. Dus: intelligentie vereist kennis. Ik moest proberen de kennis uit het web te peuren.”

Met het systeem dat Geleijnse bedacht, kan een zoekmachine zelf patronen herkennen. “Patronen moet je zien als tekstformuleringen die mensen vaak gebruiken om relaties uit te drukken. Tussen persoon en jaartal is ‘is afgestudeerd in’ een voorbeeld. Of ‘was een’ tussen persoon en beroep. De relaties tussen paren van gerelateerde termen worden met mijn algoritme gevonden en daaruit volgt een concreet antwoord op de vraag”, zegt Geleijnse. ‘Gijs Geleijnse’ en ‘2004’ blijkt een paar te zijn bij het patroon ‘is afgestudeerd in’.
En zo zijn tal van vragen te beantwoorden door de zoekmachine. Welke Amerikaan het belangrijkst wordt gevonden bijvoorbeeld. De promovendus begon zijn onderzoek in het kennisdomein historische personen. “We hebben een heel lange lijst met beroemde figuren gevonden. Het aardige daaraan is dat we hebben geleerd hoe mensen die teksten invoeren op het web die beroemdheden omschrijven en waar ze ze mee relateren. Wie is eigenlijk het beroemdst? Ronald Reagan blijkt het vaakst genoemd op het web en het grappige is dat dat overeenkomt met de verkiezing van ‘the greatest American’ die door Discovery Channel werd georganiseerd in 2005.

Voor ‘Beeld en Geluid’ kan Geleijnses systeem grote betekenis hebben. Dit multimedia-instituut heeft zijn honderdduizenden documenten gecatalogiseerd met achtduizend trefwoorden. Documentalisten die een bepaald fragment zoeken, kennen die trefwoorden niet altijd. “Stel je wilt iets zien over de grasparkiet. Dat is geen trefwoord. Ik heb mijn systeem aangepast voor ‘Beeld en Geluid’ zodat het trefwoorden kan zoeken die qua betekenis dicht bij de zoekterm grasparkiet liggen. Via vogel, huisdier en tropisch kan de slimmere computer het document wel vinden.”

Geleijnse is trots op zijn algoritme, maar beseft zich tegelijkertijd dat het niet op korte termijn terug te zien zal zijn in een commercieel product. “Philips is geen bedrijf dat zoekmachines maakt. Ik heb een wetenschappelijke bijdrage geleverd waar op voortgeborduurd kan worden, maar waar nog wel veel werk aan is om het interessant te maken voor gebruikers.”/.