
Webinterface für Annotation [Quelle: S. Kahl: Präsentation TUC at TrecVid 2016
Auch in diesem Jahr beteiligte sich die Juniorprofessur Media Computing am alljährlichen TrecVid Instance Search Wettbewerb. Die internationale wissenschaftliche Evaluationskampagne
TRECVID ist eine etabilierte Serie von Workshops, die sich auf die inhaltsbasierte Informationsgewinnung und Auswertung digitaler Videos konzentriert. Jedes Jahr stellen sich Teilnehmer einer neuen realitätsnahen Aufgabe, die Forscher diverser internationaler Institute in einem Wettbewerb versuchen bestmöglich zu lösen. Die TRECVID-erfahrenen Forscher der Juniorprofessur Media Computing und der Professur Medieninformatik der Technischen Universität Chemnitz nahmen nunmehr zum dritten Mal teil, dieses Jahr in den Kategorien “Instance Search Automatic Run” (
AR) und “Instance Search Interactive Run” (
IR).
Ziel war die Verbesserung der Vorjahres-Ergebnisse unter Nutzung von Open Source Tools auf Consumer Hardware. Dabei sollten vor allem speziell entwickelte Annotationswerkzeuge zur kollaborativen Nutzung über ein Webinterface zum Einsatz kommen mit denen mehr Ground-Truth Daten pro Zeiteinheit erzeugt werden können. Außerdem wurden Zeiten erfasst um u.a. die effizientesten Nutzer für den interaktiven Run zu bestimmen. Daten-Grundlage des Wettbewerbs war auch dieses Mal wieder die britische TV-Serie “Eastenders”. Im Wettbewerb galt es bestimmte Rollen der Serie an einem definierten Ort automatisiert zu ermitteln. Dazu erfolgte im ersten Schritt nach der Extraktion der sog. Keyframes deren Annotation durch Markieren von Personen mit Bounding Boxen (mittels Rechtecken, siehe Abbildung) und Metadatenanreicherung mit Ortsinformationen. Zur Personen- und Ortsklassifikation wurden dann im zweiten Schritt neuronale Netze (CNNs — Convolutional Neural Networks) trainiert. Da aufeinanderfolgende Bilder am selben Ort mit großer Wahrscheinlichkeit zu einer Szene (Shot) gehören, wurden Ähnlichkeitsmetriken angwandt, um Bilder einem Shot und damit einer Gruppennummer zuzuordnen. Schritt drei beinhaltete ein Re-Ranking der Ergebnisse der CNNs durch Mittelung der CNN-Konfidenzwerte aller Bilder einer Gruppe. Schließlich folgte im interaktiven Run die manuelle Evaluation der Ergebnisse mit Hilfe des Webinterfaces durch den zeiteffizientesten Annotator.
Die Forscher erzielten mit ihrer Methode eine durchschnittliche Trefferquote von 31,8% im Interactive Run und 14,4% im Automatic Run, wobei die Top 10 Präzision 90,5% (IR) und 49,7% (AR) betrug. Damit erreichte die TU Chemnitz den 2. Platz im Interactive Run und den 5. Platz im Automatic Run.