Die automatische Analyse von Bild- und Videomaterial hat in den letzen Jahren rasante Fortschritte erzielt und in einigen Bereichen den Sprung von der Forschung selbst in den Consumer Market geschafft. Bestes Beispiel dafür ist die automatische Gesichtsdetektion, die inzwischen in jeder digitalen Kamera integriert ist, um den Autofokus zu steuern. Auch das InnoProfil sachsMedia hat sich intensiv mit der Bildanalyse, insbesondere von Videomaterialien auseinander gesetzt. Das Ziel der Analyse bestand in der Entdeckung von Personen und Objekten. Als Anwendungsfall diente audiovisuelle Inhalte aus der Filmwirtschaft, wie sie beispielsweise im Lokalfernsehen entstehen.
Im Rahmen des InnoProfile-Transferprojektes localizeIT wird nun die Fragestellung zur Lokalisierung visueller Medien bearbeitet. Dabei wird zwischen drei wesentlichen Lokalisierungsstrategien unterschieden: Lokalisierung des Mediums, Lokalisierung im Medium, Lokalisierung in der Welt. Aus dieser Aufgabenstellung ergeben sich jedoch auch die Problembereiche Echtzeit, Präzision, und Synchronisation und führen zu folgenden Themenschwerpunkten.
Lokalisierungsstrategien
Lokalisierung des Mediums: Moderne Fotokameras halten zu Aufnahmen in der Regel GPS-Daten bereit, die in EXIF-Beschreibungsdaten abgespeichert werden. Filmkameras halten noch keine GPS-Daten fest. Interessant ist also die Lokalisierung für Medien, die noch ohne GPS-Daten aufgenommen wurden. Hier kann ein Vergleich mit anderen Aufnahmen, bei denen die Lokalisierung bekannt ist, hilfreich sein. Dabei handelt es sich um ein Problem, das mit klassischen Bildverarbeitungsverfahren angegangen werden kann. So kann zumindest dort, wo entsprechendes Vergleichsmaterial existiert, eine nachträgliche Lokalisierung durchgeführt werden.
Doch die Lokalisierung von Medien ist nicht nur auf rein räumliche Aspekte beschränkt. So nutzen die reinen GPS-Koordinaten “52.507595, 13.372507” beispielsweise zunächst einmal sehr wenig. Eine Recherche in einem Informationssystem wird nach dem dazugehörigen Ort stattfinden. Über entsprechende Dienste kann aus den GPS-Daten auf den Ort geschlossen werden: Marlene-Dietrich-Platz in Berlin. Und hier wird die Lokalisierung wissenschaftlich spannend: Dieser Platz ist zeitabhängig sehr wandelbar, vor allem in seiner Bedeutung. In Kombination mit dem Aufnahmedatum, kann die Lokalisierung nun feststellen, dass die Aufnahme den roten Teppich während der Berlinale zeigt. Ein solch umfassender Dienst existiert bislang nicht, ist aber in verschiedensten Anwendungszusammenhängen denkbar, wo Orte zeitabhängige Bedeutung haben, von kurzzeitigen Staus und Unfällen, über Veranstaltungen bis hin zu historischen Aufnahmen.
Lokalisierung im Medium: Die Lokalisierung von Objekten in Medien ist typischerweise in Überwachungsszenarien von besonderer Bedeutung. So werden beispielsweise in öffentlichen Gebäuden statische Überwachungskameras installiert, die beobachten, ob Personen durch eine Tür gehen. Genutzt wird dies etwa bei sicherheitskritischen Umgebungen wie Flughäfen oder nur zu Zählzwecken wie in Kaufhäusern. Dazu werden Personen im Bild erkannt und ihre Bewegung verfolgt und mit der Position der Tür verglichen. Ein Anwendungsfall mit der technisch gleichen aber inhaltlich umgekehrten Zielsetzung ist die Anonymisierung. So müssen beispielsweise bei automatisch aufgenommenen Videos zur Streckenbewertung der Bahn zufällig aufgenommene Personen unkenntlich gemacht werden. Auch hier gilt es zunächst die Personen zu lokalisieren, um möglichst nur die Personen und nicht die Umgebung unkenntlich zu machen.
Zur repräsentativen Darstellung der Videodaten eignen sich großflächige Displays in Form von Powerwalls, bei denen das Gesamtbild von mehreren zum Teil überlappenden Projektoren erzeugt wird. Die Lokalisierung dabei auftretender Farb- und Geometrieverzerrungen ist eine wichtige Voraussetzung, um mit Hilfe von Kalibrierungsverfahren eine angemessene Bildqualität sicherzustellen.
Lokalisierung in der Welt: Werden die Lokalisierung des Mediums und die Lokalisierung im Medium miteinander kombiniert, wird eine Lokalisierung einzelner Objekte in der realen Welt möglich. Die Lokalisierung der Objekte gestaltet sich somit unabhängig vom aufnehmenden Medium. Technisch gesehen wird aus dem Kamerabild ein Weltmodell aufgebaut, in dem sich erkannte Objekte befinden. Die Position der Objekte ist bekannt und kann unabhängig vom Aufnahmesystem kameraübergreifend analysiert und erkannt werden. Solche Verfahren werden beispielsweise in der Automobilbranche entwickelt, um die automatische Navigation zu ermöglichen.
Problembereiche
Echtzeit: Die Bearbeitung von Archivmaterial, wie sie in sachsMedia und validAX erfolgt, ist nicht zeitkritisch. Ob die Analyse eine einstündigen Videos ebenfalls eine Stunde oder einen Tag dauert, ist zunächst einmal egal. Die hier angestrebte Analyse muss in Echtzeit, bzw. nah an Echtzeit erfolgen, da die Einsatzbereiche zeitkritisch sind. Die geplanten Anwendungsbereiche reichen von der Analyse von Photographien für die aktuelle Berichterstattung von Printmedien bis hin zu videobasierten Überwachungssystemen.
Präzision: Das Anwendungsfeld Archivierung von TV-Material ist in der Präzision der Videoanalyse vergleichsweise tolerant. Zum einen kann das Analyseergebnis mit dem Ergebnis der Audioanalyse abgeglichen werden. Zusätzlich können manuelle Beschreibungen der TV-Sender übernommen werden. Dadurch basiert das Gesamtergebnis auf verschiedenen Analysen. Zum anderen ist die eigentliche Aufgabe im Archivierungssystem, nämlich die Suche nach Videomaterial, auch bei fehlerhaften Analysen im schlimmsten Fall verzögert. Die hier angestrebten Anwendungsbereiche sind im Punkt Analysepräzision deutlich restriktiver. Beim Einsatz in sicherheitskritischen Umgebungen scheint das intuitiv Nachvollziehbar, aber Notwendigkeit für Präzision beginnt schon viel eher: Geht es beispielsweise um die Anonymisierung von Videomaterial (s.o.), ist eine nicht entdeckte und verpixelte Person bereits ein juristisch relevantes Datenschutzproblem.
Synchronisation: TV-Material ist in einem weiteren Punkt deutlich einfacher als das hier angestrebte Projektziel: Es wird immer nur eine Kameraperspektive analysiert. Der Vorliegende Antrag zielt darüber hinaus insbesondere Lokalisierung in der Welt auf Mehrkameraerkennung ab. D. h. die Analysen verschiedener Kamerabilder müssen miteinander synchronisiert werden. Zwei Herausforderungen stehen hier im Vordergrund: erstens die Analyse mehrerer Kamerabilder in einem Raum, also verschiedene Perspektiven auf dasselbe Szenario, und zweitens verteilte Kameras also die Verfolgung von Objekten über mehrere sich ergänzende Kameraeinstellungen.