Im Rahmen einer Kooperation von Mitarbeitern der Stiftungsjuniorprofessur Media Computing und der Professur Medieninformatik der Technischen Universität Chemnitz ist es den Nachwuchswissenschaftlern unter Leitung von Jun.-Prof. Dr. Marc Ritter zwischen April und August 2014 gelungen, ein System zur Teilnahme an der wissenschaftlich renommierten Evaluationskampagne TREC Video Retrieval Evaluation (TRECVID) in der Kategorie Instance Search zu entwerfen und zu implementieren.
Die seit 2001 jährlich vom amerikanischen National Institute for Standards and Technologies (NIST) organisierten TRECVID Evaluationskampagnen befassen sich mit topaktuellen Forschungsproblemen, die im allgemeinen Kontext des Information Retrieval (IR) besonders auf inhaltsbasierte Suche und Nutzbarmachung digitaler Videos fokussiert. Das Ziel besteht darin, die Forschung auf diesen Themengebieten voranzutreiben, indem große Testkollektionen zusammen mit realistischen Aufgabenstellungen und einem einheitlichen Bewertungsverfahren veröffentlicht und ein Forum zum internationalen Vergleich der Ergebnisse gestellt wird.
Für die diesjährige Aufgabenstellung im Bereich Instance Search wurde ein Korpus von 464 Stunden Videomaterial der BBC Daily-Soap Eastenders zur Verfügung gestellt. Das Ziel bestand darin, bis zu 1.000 verschiedene Instanzen (Beispiele) von 30 verschiedenen Objekten, Personen oder Orten im Korpus aufzufinden. Wissenschaftlich interessant wird das Ganze bei genauerer Betrachtung der Struktur der Suchanfrage und der Trainingsdaten, die sich von üblichen Objektdetektionsverfahren deutlich abgrenzen, da hier statt Tausender an Trainingsbeispielen eine sehr geringe Anzahl von vier Beispielen vorliegt und kein zuvor erlerntes Objektmodell zur Anwendung gelangen darf. Darüber hinaus ist die Klasse des zu findenden Objekts oftmals nur grob definiert: Wird beispielsweise nach einer roten Plastikflasche gesucht, die Ketchup enthält, muss eine variable Objekterkennung sowohl bauchige als auch längliche Flaschen identifizieren können, wohingegen visuell sehr ähnlich beschaffene Glasflaschen mit Ketchup nicht erkannt werden dürfen.
Das achtköpfige Team von Nachwuchswissenschaftlern hat dabei vielfältige Ansätze und Lösungsstrategien verfolgt und intern evaluiert. Am erfolgversprechendsten erschien der Ansatz einer Gitter-Pyramide von MPEG‑7 Deskriptoren, die auf ein bis fünf ausgewählten repräsentativen Bildern pro Kameraeinstellung berechnet wurden. Durch diesen dynamischen Ansatz war es möglich, die Anzahl der zu analysierenden Einzelbilder von fast 42 Millionen auf etwa 1,1 Millionen zu reduzieren. Weitere Verbesserungen ließen sich durch eine Analyse des Audio-Materials erzielen, so dass für verschiedene Szenen automatisiert eine Aussage getroffen werden konnte, ob es sich dabei um Innen- oder Außenszenen handelt. Verbliebene Fehldetektionen wurden unter Beachtung einer maximal 15 minütigen Nachlese händisch entfernt.
Die Ergebnisse wurden von Jun.-Prof. Dr. Marc Ritter vom 10.–12. November 2014 auf dem TRECVID Workshop an der University of Central Florida in Orlando, Florida, USA vorgestellt. Dabei konnten viele neue Erkenntnisse gewonnen werden, welche die zukünftigen Forschungen und Entwicklungen im Projekt localizeIT maßgeblich beeinflussen werden.
Publikation: Ritter, Marc ; Heinzig, Manuel ; Herms, Robert ; Kahl, Stefan ; Richter, Daniel ; Manthey, Robert & Eibl, Maximilian: Technische Universität Chemnitz at TRECVID Instance Search 2014. In: TRECVID Workshop, 10.–12.11.2014, Orlando, Florida, USA, 8 S. [Link]