/Voorpagina
/Mensen
/Nieuws
/Opinie
/Cultuur
/Studentenleven
/Achtergrond
/English page
/Onderzoek
/Reportage
/Bestuur
/Ruis
/Harmpje
/Colofon
/Faculteits Berichten
/Vacatures
/Mensa
/Oude cursors
/pdf formaat
/TUE
/Zoeken:
/ Cursor nummer 3 nummer 9

jaargang 42, 22 juni 2000


Onderzoek

Untitled Document Het herkennen van de tekenen

Optical Character Recognition/Cora van den Berg

Hoe herkent de computer van het postkantoor de handgeschreven adressen op de duizenden enveloppen die dagelijks gesorteerd worden? Hoe kan een apparaat in een fabriek de serienummers op de producten snel en foutloos inlezen? De Optical Character Recognition-software (OCR) die hiervoor ontwikkeld is, laat nogal wat steken vallen. Vaak kan een herkenningsprogramma alleen maar uit de voeten met tekens waarin het uitgebreid getraind is. Onleesbare handschriften of beschadigde letters maken ook weinig kans op herkenning. Nadeem Khan zag dat er een theoretisch kader ontbrak aan het OCR-onderzoek. Met zijn promotieonderzoek heeft hij een stap gezet om deze leemte te vullen.

“Wij mensen hebben geen problemen om dingen te herkennen. We zien gelijk dat een fiets een fiets is, en dat de letter A geen B is. Ik heb mezelf afgevraagd hóe wij dat doen. Als we dat in computerprogramma’s kunnen stoppen, zijn we al een heel eind opgeschoten wat betreft tekstherkenning.” Nadeem Khan heeft deze taak zelf op zich genomen. Het resultaat is zijn proefschrift ‘A Shape Analysis Model with Application to Character and Word Recognition’, waarop hij vorige maand promoveerde bij Mixed-signal Electronics (MsM) van Elektrotechniek.

De aanleiding voor zijn promotieonderzoek was praktisch. Afkomstig uit Pakistan werkte Khan meer dan drie jaar bij Philips en twee jaar bij het Stan Ackermans Instituut van de TUE. Zijn opzet was om het werk dat hij hier deed later als proefschrift uit te breiden. Om financiële redenen ging dat niet door. Ondertussen boden contacten met de Industrial Vision Group van Philips de mogelijkheid toch een promotieonderzoek op te zetten. De Industrial Vision Group is onder andere bezig met het ontwikkelen van software op het gebied van patroonherkenning. De industrie is er enorm bij gebaat als dit automatisch kan gebeuren. Bijvoorbeeld voor het herkennen van serienummers op producten, niets ongewoons voor een grote fabriek als Philips. Of voor het herkennen van adressen op enveloppen tijdens de dagelijkse sortering van brieven op het postkantoor. Er bestaat speciale software voor het herkennen van cijfers en letters, de zogenaamde OCR, ofwel optical character recognition. Probleem is dat deze alleen specifieke tekens kan herkennen en alleen onder bepaalde omstandigheden. Als de omstandigheden veranderen, laat de software het vaak afweten. Bijvoorbeeld als een stukje van de tekst is beschadigd of in andere huis-tuin-en-keuken situaties. “De software haalt het niet bij de vaardigheid van mensen”, zegt Khan.


Foto: Bram Saeys

Zwakke kanten

Gestimuleerd door de Vision Group ging Khan vanaf 1996 met dit probleem aan de slag. “De groep was geïnteresseerd in kennis op dit terrein, en heeft uiteindelijk mijn onderzoek gefinancierd. Ze heeft een commercieel uitgangspunt hierin; ik was vooral uit op onderzoek. Ik wil altijd nieuwe benaderingen uitdenken, die beter en sterker zijn dan de bestaande benaderingen, maar wel zo dat het van nut kan zijn voor de industrie.”

Op het gebied van OCR is al veel onderzoek gedaan. “In het begin heb ik veel tijd hieraan besteed”, vertelt Khan. “Vooral om te kijken waar de zwakke kanten zaten. Want in publicaties worden vaak alleen de sterke kanten van een onderzoek belicht. Het viel me op dat bijna al het onderzoek een commercieel belang heeft. In de industrie wordt OCR-software ontwikkeld voor één specifieke applicatie, bijvoorbeeld het herkennen van de adressen op de enveloppen. Maar zelfs de ontwerpers daarvan kunnen niet precies uitleggen hoe OCR precies werkt, wat er achter zit, en hoe het dus verbeterd kan worden. Er is veel ‘ad hoc-isme’ op dit gebied. Mensen met verschillende achtergronden proberen van alles uit, totdat er iets blijkt te werken voor een bepaalde toepassing. Dus aan de hele bulk onderzoeken ontbrak tot dusver het inzicht, een fundamentele theoretische basis.”

Niet dat Khan zichzelf de eer wil toebedelen dat hij de allereerste theorie op dit gebied heeft ontwikkeld. “Maar onderzoek in deze richting is altijd op de achtergrond gebleven. Ik heb het idee dat ik er een bijdrage aan heb geleverd. Het is een stap in de goede richting. Waarom? Omdat mijn onderzoek een hele gestructureerde benadering heeft opgeleverd. En omdat het gelijkenis vertoont met hoe wij dingen herkennen, namelijk niet in één gooi, maar stap voor stap.”

Moeilijk handschrift

Om het proces van herkenning te leren kennen, heeft Khan veel nagedacht over hoe wij dat zelf doen. “Soms hebben we meer tijd nodig, bijvoorbeeld als het een moeilijk leesbaar handschrift is of als er een beschadiging in de tekst zit. Waarom classificeren we een vorm in een bepaalde klasse? Ik ging ervan uit dat wij mensen dat goed kunnen, dus dat heb ik willen toevoegen aan mijn methode.”

Khan is uitgegaan van abstracte definities van letters, en dan met name van het Latijnse alfabet. Een A bijvoorbeeld kan gedefinieerd worden als twee diagonale lijnen verbonden door een horizontale lijn. “Er zijn zoveel A’s denkbaar in alle mogelijke variëteiten. Geen twee zijn dezelfde, en toch herkennen we ze zelf met gemak. De normale methode van OCR-software stopt zoveel mogelijk van deze A’s in het programma en gaat het systeem hierop trainen. Na een paar duizend A’s ingevoerd te hebben, kan het programma de A herkennen. Terwijl het in mijn methode helemaal niet nodig is dat het systeem al die A’s leert. Want alle vormen zijn op één of andere manier een transformatie van de abstracte vorm. De kunst is dan vervolgens om de transformatie, één van de vele variëteiten van de letter die we in het dagelijkse leven tegenkomen, terug te brengen naar de oorspronkelijke abstracte vorm. Dit proces heb ik opgesplitst in verschillende stappen.”

De eerste stap is het selecteren van mogelijke oplossingen aan de hand van zeer globale kenmerken. Dan volgt een nadere vergelijking met de abstracte vorm. Hoe minder er veranderd hoeft te worden aan de gelezen letter om de abstracte A te vormen, hoe groter de kans is dat die letter een presentatie van A is. Tot slot worden ook details herkend zoals hoeken, die bijvoorbeeld het verschil tussen een O en een D kunnen bepalen.

Gebroken tekens

Khan heeft zijn methode uitgebreid onderzocht met behulp van experimenten. Herkenning van machinaal gedrukte en handgeschreven teksten komt er goed van af, zo blijkt daaruit. Vooral waar het gaat om slecht leesbare of gebroken tekens. “Het grote voordeel van mijn benadering is daarbij, dat er niet veel training van het computerprogramma voor nodig is om deze resultaten te bereiken, in tegenstelling tot de gangbare OCR-programma’s”, zegt Khan. “Bovendien kan ik nieuwe vergelijkbare patronen invoeren die ik wil. Daarvoor hoef ik dan geen zevenduizend voorbeelden van het teken in het programma in te voeren opdat de computer het teken leert kennen.”

De Industrial Vision Group, die aan de basis van het promotieonderzoek heeft gestaan, heeft nog geen project ingericht voor de toepassing van Khans resultaten. “Het proefschrift is nog maar net af”, legt Khan uit. “Maar ze hebben er wel positief op gereageerd. Ik hoop uiteraard dat mijn methode gebruikt gaat worden. Verder zou ik vooral graag zien dat het onderzoek wordt voortgezet. Het is nog lang niet af, want het is een complexe materie. Als ik meer tijd had gehad, was ik er zeker mee doorgegaan. Maar voorlopig ga ik terug naar Pakistan, en ik weet niet of ik het daar in mijn eentje kan voortzetten.”

Stel dat hij door zou gaan met het onderzoek, dan zou het in ieder geval niet over het Latijnse alfabet gaan, maar over het Arabische, Perzische of Urdu-alfabet. En in geen geval zou Nadeem Khan half werk leveren. Zoals hij in één van de stellingen een Urdu spreekwoord aanhaalt: ‘Kijk uit voor een halve geneesheer; want hij kan doden in een poging te genezen.’/.














Website Cursor