Cursor | Onderzoek

Muziekclips maken vanuit je luie stoel

5 november 2009 - Wie naar een concert gaat, vindt vaak binnen de kortste keren fragmenten van het optreden terug op YouTube. Bezoekers liggen vanuit alle hoeken met mobieltjes en camcorders in de aanslag. De afzonderlijke filmpjes zijn doorgaans bedroevend: beroerde kwaliteit en halve opnames van een liedje zorgen voor een hinderlijk schouwspel. Prarthana Shrestha ontwikkelde een manier om het versnipperde aanbod automatisch te compileren en op te vijzelen tot een samenhangende registratie.

Foto: Dierk Hendriks

Met het aanbod van betaalbare, handzame en kwalitatief goede camcorders is het aantal videoamateurs de laatste jaren enorm gegroeid. Ook de komst van mobieltjes en fototoestellen waarmee gefilmd kan worden, heeft bijgedragen aan een nieuwe cultus: video sharing. Dit staaltje exhibitionisme komt vooral tot uiting op websites als YouTube, dat sinds 2005 bestaat. Iedere scheet wordt tegenwoordig uitgelicht. Misschien authentiek en leuk voor de liefhebber, maar zelden interessant. Zeker voor een buitenstaander; die heeft meestal meer behoefte aan een ‘verhaal’ dan een enkele losse flodder.

Een goed voorbeeld is de eindeloze rij concertfilmpjes vanuit het publiek. Van één song bestaan soms twaalf, dertien verschillende versies, maar geen enkele daarvan is afzonderlijk het bekijken waard. Te statisch, niet compleet, slechte kwaliteit en ga zo maar door. Maar bij elkaar opgeteld bevatten de filmpjes genoeg materiaal voor een aardig overzicht. In haar proefschrift noemt Prarthana Shrestha een mooi voorbeeld: ‘Nothing else matters London Metallica 2009’. Wie deze zoekwoorden op YouTube invoert, krijgt achttien clips van een halve minuut tot zelfs acht minuten die op ongeveer hetzelfde moment zijn gemaakt van metalband Metallica. Ze allemaal afkijken, kost veel tijd en is een saaie bedoening, want constant hetzelfde camerastandpunt. Met populaire software zoals Adobe Première, Ulead en iMovie valt manueel wel wat te verbeteren. Maar de gemiddelde videoliefhebber begint daar nauwelijks aan. De genoemde programma’s zijn voor veel gebruikers behalve gecompliceerd ook vrij tijdrovend.

Shrestha ontwikkelde tijdens haar vier jaar durende PhD-onderzoek bij Philips Research Eindhoven een systeem dat automatisch opnames van meerdere camera’s bundelt tot een vloeiende videostream, een zogeheten ’mashup’. Shrestha: “De mashup is ook geschikt voor bruiloften, sportwedstrijden of andere evenementen waarbij meerdere camera’s aanwezig zijn. Maar in mijn vooronderzoek bleek echter dat concertgangers veruit de grootste groep vormen die aan video sharing doet, dus heb ik me daarop gericht.”

De onderzoekster uit Nepal startte met de netelige kwestie: wat bepaalt de kwaliteit van een film? Een vraag waarop veelal een subjectief antwoord volgt. Maar na vele interviews onder zowel professionele filmers als videoamateurs rolde er toch een soort consensus uit die als leidraad kon gelden voor haar systeem. Onder meer beeld, variatie en synchronisatie werden algemeen beschouwd als bepalende elementen voor de kwaliteit. Aan de hand hiervan zette Shrestha een drietrapsmodel op: pre-processing, mashup-composition en post-processing. In haar onderzoek heeft ze zich gericht op de eerste twee stappen van het model: “Gezien de beperkte onderzoekstijd waren die wetenschappelijk het meest interessant,” verklaart ze.

Voor pre-processing ontwikkelde ze een methode om meerdere films op één tijdlijn te synchroniseren, om te voorkomen dat beeld en geluid uit de pas lopen. Een verschijnsel dat al optreedt bij een afwijking van 1/25ste seconde, uitgaande van een filmsnelheid van 25 beelden per seconde.

Ze bedacht drie oplossingen: één op basis van beeldanalyse (lichtspots, flitslicht et cetera) en twee met behulp van geluidsanalyse. Bij de eerste audiomethode worden verschillende opnames vergeleken aan de hand van unieke ‘vingerafdrukken‘ die ieder geluidsfragment met zich meedraagt. De tweede manier is gebaseerd op de zogeheten ‘audio-onset‘ die pieken op de geluidslijn herkent, veroorzaakt door bijvoorbeeld een drumbeat of het begin van een song. De drie synchronisatietechnieken zorgen voor een volledige ‘dekking’ van een concert. De audiotechnieken blijken het meest geschikt voor het maken van een automatische mashup.

Als alle opnames op één lijn staan, is de volgende stap de compositie van de mashup. Gebaseerd op de eerdere interviews formuleerde Shrestha een algoritme, first-fit, waardoor als vanzelf een film ontstaat volgens de beperkingen, regels en voorkeuren die professionele- en amateurfilmers vooraf hadden aangegeven. Als benchmark voor de automatische mashup paste ze nog twee andere manieren van monteren toe. Als eerste de zogeheten ‘naïeve’ methode, waarbij opnames lukraak werden gemonteerd zonder te letten op de kwaliteit van de beelden (schokkerig, onderbelicht et cetera). In het tweede geval ging het om een manual, een mashup die door een professionele editor werd samengesteld.

“Tijdens een objectieve evaluatie scoorde first-fit hoger dan beide andere montages. Maar we wilden ook taxeren hoe onze doelgroep, de videoamateurs, het systeem zou waarderen.” Veertig proefpersonen tussen twintig en dertig jaar beoordeelden de montages. Op alle fronten vonden ze de naïeve methode het minst, terwijl first-fit en manual ongeveer even hoog scoorden. “Daar moet ik wel aan toevoegen dat de kwaliteit van een mashup altijd erg afhankelijk is van de aangeboden filmpjes. Met stabiele opnames vanuit verschillende hoeken, veraf, dichtbij, krijg je natuurlijk veel meer variatie en daardoor een plezierige kijkervaring. “Maar hoe goed of slecht een mashup ook is; als iemand een artiest of lied waardeloos vindt, wordt het filmpje ook niet gewaardeerd”, relativeert ze met een lach. (FvO)/.

Ir. Prarthana Shrestha verdedigt donderdag 19 november op de TU/e haar proefschrift ’ Automatic mashup generation of multiple-camera videos’.