spacer.png, 0 kB
Volg Cursor via Twitter Volg Cursor via Facebook Cursor RSS feed
spacer.png, 0 kB

spacer.png, 0 kB


“Mijn afstudeerrichting zit tussen informatica en bedrijfskunde in”, zegt Judith Kennes.
Cursor in PDF formaatCursor als PDF
PrintE-mail Tweet dit artikel Deel dit artikel op Facebook
James Bond samengevat: vrouwen en actie
22 november 2007 - Bijna twee miljard dollar schijnt YouTube waard te zijn. Een krankzinnig bedrag, maar het geeft wel aan dat websites met filmpjes hot zijn. Vaak staan er duizenden op, zodat je het overzicht al snel volledig kwijt bent. Een korte, bewegende samenvatting van elk filmpje zou handig zijn bij het zoeken naar wat je interesseert. Hiervoor heeft Mauro Barbieri van Philips Research software ontwikkeld: stop er een film in en er komt een korte, maar waarheidsgetrouwe preview uit. Donderdag 29 november verdedigt hij zijn proefschrift aan de TU/e.

Toen ir. Mauro Barbieri in 2001 zijn promotieonderzoek bij Philips begon, bestond YouTube nog helemaal niet. Internetverbindingen waren nog vele malen trager dan nu en de euforie over de jonge internetbedrijfjes was kort daarvoor als een zeepbel uit elkaar gespat. Op dat moment waren wel de eerste harddiskrecorders in opkomst. Met hun harde schijven om tv-programma’s mee op te nemen, maakten zij de ouderwetse videorecorder definitief overbodig. Op basis van persoonlijke voorkeuren kon je nu verspreid over alle tv-kanalen en op elk mogelijk tijdstip interessante programma’s laten opnemen. Om ze later rustig te kunnen bekijken, zo was het idee.
Een goed idee. De praktijk was echter vaak dat het niet meeviel om gericht te kiezen uit het woud aan opgenomen tv-programma’s. En daar wilde Philips de gebruiker bij gaan helpen. Er moest software komen die van elke film een korte, maar representatieve samenvatting kon maken: een ‘video-preview’. “De preview moest het de gebruiker mogelijk maken te beslissen of hij de hele film zou willen bekijken”, vertelt Barbieri op de afdeling Experience Processing van Philips Research op de High Tech Campus Eindhoven. Ongeveer zoals digitale foto’s op de computer de ‘thumbnail’ hebben als kleine, handzame verschijningsvorm. Dit is een sterk verkleinde weergave van de betreffende foto, inderdaad ongeveer ter grootte van een duimnagel. Voordeel hiervan is dat de computer niet steeds de hele foto hoeft in te laden en dat je snel in een grote verzameling foto’s kunt zoeken. Heb je het over een verzameling films, dan wordt het een lastiger verhaal. Je kunt wel een scène uit de film nemen en die als thumbnail afbeelden, maar één enkel beeld dekt de lading van een film natuurlijk bijna nooit. Komt nog bij dat een film ook geluid bevat. Hoe stop je dat in een stilstaand beeld?
Barbieri: “Het was uitdrukkelijk niet de bedoeling dat de software echte trailers zou maken. Dat zijn de korte filmpjes op internet die het publiek naar de bioscoop moeten lokken. Meestal overdreven aantrekkelijk gemaakt en daarmee geen goede weergave van de film. Onze previews moesten de sfeer en het verhaal van de film goed weergeven, en misschien ook even de belangrijkste acteurs in beeld brengen.” Daarbij beperkte de informaticus zich tot films, documentaires en afleveringen van tv-series.

Actiescènes
Om van een stuk film een korte samenvatting te kunnen maken, kan Barbieri’s software heel goed films analyseren. Daarbij maakt het om te beginnen onderscheid tussen verschillende soorten scènes. Dialogen en actiescènes moeten allebei in de preview terechtkomen en liefst ook nog in een verhouding die de film recht doet. Reclame wordt vooralsnog uit de samenvatting geweerd. Maar de software kan meer. Contrastloze of te donkere beelden negeren bijvoorbeeld. En menselijke gezichten herkennen. Daaruit kan het afleiden of een scène in close-up is gefilmd of van veraf. Met behulp van al deze gereedschappen bouwt de software de preview op.
Daarbij zijn een paar regels heel belangrijk. De gebruiker wil wat informatie over het verhaal meekrijgen. Ook wil je meestal even de belangrijkste acteurs zien. Wat in ieder geval níemand wil, is dat de clou van het verhaal verklapt wordt. Voor mensen is dit allemaal vanzelfsprekend, maar we hebben het hier over software. “Het is ook van belang dat ondertitels lang genoeg in beeld blijven en lopende zinnen niet worden onderbroken”, aldus Barbieri. Het algoritme in de software werkt door dit alles nooit voor honderd procent perfect. “Zo loopt het detecteren van gezichten mis bij buitenaardse wezens in Star Wars”, zegt Barbieri lachend.
Om het proces toch zo goed mogelijk te laten functioneren, werkt het algoritme met een soort scorekaart. Daarop staan allerlei criteria waaraan een goede preview moet voldoen. Zo moet een goede filmsamenvatting genoeg informatie bevatten om een aardig beeld van het verhaal te krijgen. Het liefst zijn de gekozen scènes zo verschillend mogelijk en klopt de stijl van de fragmenten in de preview zo goed mogelijk met de volledige film. De software pakt nu willekeurig een paar fragmenten uit de originele film en bepaalt daarvoor de scores. Nu varieert het die fragmenten een klein beetje in de tijd. Neemt de score toe, dan schuift het fragment nóg iets verder die kant op. Dit stapsgewijze verbeterproces gaat door totdat de maximale score is bereikt. De filmsamenvatting is geoptimaliseerd en klaar voor gebruik.
Zittend voor een gigantische Philips breedbeeld-tv laat de Italiaanse promovendus een paar voorbeelden zien. Met automatisch gegenereerde previews proeven we even van Harry Potter en The Matrix. De samenvattingen die we zien, bevatten een mooie mix aan dialogen, actiescènes en overzichtsshots. Behalve bij James Bond. De preview van ‘The World is Not Enough’ maakt duidelijk dat daarin bijna niets anders zit dan actie, vrouwen en nog meer actie. Maar dat ligt waarschijnlijk niet aan de software…

Voorproefjes
De promovendus testte zijn previews op een panel van proefpersonen. Om de kwaliteit van de software te bepalen, kregen ze zonder dat ze het wisten ook voorproefjes te zien waarin de fragmentjes uit de originele film volledig willekeurig waren gekozen. Een derde soort die erbij zat, waren handmatig samengestelde filmpjes. Die leken nog het meeste op de reclameachtige trailers. De proefpersonen beoordeelden elk filmpje op verschillende aspecten en gaven rapportcijfers: wat vond u van het fragment; was het informatief; kunt u de sfeer van de film goed inschatten op basis van de samenvatting; kende u de film al? Uit deze enquête kwam -geheel naar verwachting- een sterke voorkeur (een 8) voor de handgemaakte fragmenten naar voren. Het volledig willekeurige samenraapsel scoorde lager dan een 5. Barbieri’s previews bleken tussen de 6,4 en de 7 te scoren. Conclusie: volautomatisch met slimme software previews maken voegt duidelijk iets toe. Het is goedkoop, want er komen geen mensenhanden meer aan te pas en je kunt het in een apparaat inbouwen.
Barbieri liet zijn software eerder dit jaar al zien op de jaarlijkse International Consumer Electronics Show in Las Vegas. Ook sprak hij tijdens zijn promotieonderzoek met regisseurs en producenten van films en tv-series. En niet alleen uit Nederland. De promovendus trad zelfs in contact met filmmakers uit Hollywood, het mekka van de filmindustrie. Namen mag hij helaas niet noemen van zijn werkgever.
Barbieri hoopt dat zijn software over een paar jaar in de harddiskrecorders van zijn werkgever terechtkomt. “Philips voegt dit soort diensten steeds vaker toe aan zijn producten. De winstmarges op de apparaten zelf zijn flink gedaald, omdat bijna alle elektronicabedrijven met de juiste componenten tegenwoordig een harddiskrecorder in elkaar kunnen zetten. Met dit soort slimme snufjes kunnen we ons nog onderscheiden van concurrenten.” Reden ook waarom hij in zijn proefschrift verwijst naar tientallen Philips-patenten rondom de ontwikkelde software voor het maken van previews. Barbieri: “Zo proberen we onze technologie te beschermen. Wanneer we het eenmaal in een product hebben ingebouwd, is het heel eenvoudig te kopiëren. Philips investeert veel geld in onderzoek en de resultaten daarvan moeten we wel beschermen met patenten.”
Maar waarschijnlijk is de software nog veel breder inzetbaar. Het kan veel tijd schelen voor de inkopers van tv-programma’s, die de wereld afstruinen op zoek naar nieuw aanbod. Of voor beheerders van televisiearchieven. En niet te vergeten op YouTube./.


De software herkent ondertitels en zorgt dat die in de preview lang genoeg in beeld blijven.


Gezichten van mensen worden door de software goed uit het beeld gevist. Een groot gezichtsoppervlak vertelt de software dat de scène in close-up is gefilmd.


Links een extreme close-up; rechts een shot van grote afstand. De software zorgt ervoor dat de preview een mix wordt van deze extremen met hun tussenvormen.

Video-previews/Jim Heirbaut
Foto/Bart van Overbeeke