Die Bildverarbeitung ist ein Schwerpunkt der Stiftungsjuniorprofessur Media Computing, die aus der Professur Medieninformatik hervorgegangen ist. In vielen Projekten, wie dem Vorgängerprogramm der InnoProfil-Initiative sachsMedia, konstitutionierten sich eine Reihe wichtiger wissenschaftlicher Erkenntnisse und Softwareentwicklungen, welche in der InnoProfil-Transfer-Initiative localizeIT fortgeführt werden.
Die neu gegründete Stiftungsjuniorprofessur Media Computing ist interdisziplinär ausgelegt. Erfahrungen aus der Bildverarbeitung werden mit Wissen über virtuelle 3D-Welten verknüpft, um dreidimensionale Abbilder eines Objektes oder einer Videoszene erstellen zu können und durch die Möglichkeiten dieser Darstellung ein besseres Lokalisierungsergebnis und eine ansprechende Visualisierung von Resultaten zu gewährleisten. Erkenntnisse aus dem Bereich der Audioverarbeitung vervollständigen und verbessern die Lokalisierung mithilfe der physikalischen Eigenschaften auditiver Signale.
3D-Lokalisierung in Mehrkameravideoaufnahmen
Mehrkameraaufnahmen eines geschlossenen Raumes treten typischerweise in Überwachungsszenarien auf, seien diese sicherheitstechnisch, medizinisch oder wirtschaftlich motiviert. Im kommerziellen Bereich existieren bereits einige erfolgreiche Ansätze und Realisierungen. Herausforderungen bestehen aber nach wie vor darin, Verdeckungen zu verarbeiten. Sobald beobachtete Objekte zeitweise außer Sicht geraten, bricht die Nachverfolgung in der Regel ab. Ein weiteres Problem stellt die Übergabe von Objekten zu verschiedenen Kameras dar. Lässt sich beispielsweise ein Raum nur durch den Einsatz mehrerer Kameras in seiner Gesamtheit erfassen, muss das verfolgte Objekt von einer Kamera zur nächsten übergeben werden.
Lokalisierung und semantische Verknüpfung von Bilddaten
Bildagenturen haben einen täglichen Bilddurchsatz im oberen fünf bis sechsstelligen Bereich. Eine solche Menge lässt sich nicht mehr sinnvoll händisch mit Beschreibungen versehen. Hier sind automatische Verfahren notwendig, die eine konkrete Lokalisierung der Aufnahme möglich machen. Typisch ist beispielsweise die Aufnahmesituation eines roten Teppichs bei der Berlinale. Hier werden in kürzester Zeit zahlreiche Photographien akquiriert. Mit modernen Kameras kommen die Bilder automatisch mit GPS-Koordinaten und Aufnahmezeitpunkt in die Datenbank, aber ohne weitere semantische Beschreibung. Wenn Verlage im Bildarchiv recherchieren, sind oftmals weder die GPS-Koordinaten noch der genaue Aufnahmezeitpunkt des gewünschten Bildes bekannt. Hier können zwei Methoden helfen: Webservices stellen eine Verbindung zu Ereignisdatenbanken sowie Geoinformationen her, so dass zumindest die Aufnahmesituation “Berlinale” ermittelbar ist. Für die weitere semantische Analyse des Materials müssen Verfahren der Bilderkennung herangezogen werden, um beispielsweise Pose oder Blickrichtung einer auf dem roten Teppich fotografierten Person zu erkennen.
Integration von Audioereignissen in die Echtzeitanalyse
In bestimmten Situationen ist eine videobasierte Lokalisierung unzureichend. Ist beispielsweise zu wenig respektive gar kein Licht vorhanden oder treten unerwartet Verdeckungen durch Objekte auf oder beschlägt auch nur die Linse, können keine brauchbaren Informationen mehr extrahiert werden. Hier unterstützt die Audioanalyse die Lokalisierung im Raum und ermöglicht es, Situationen genauer einzuschätzen. So kann beispielsweise bei der Raumüberwachung überprüft werden, ob eine Person schreit, spricht oder schweigt. Derartige Informationen können in der Betreuung von Demenzkranken im eigenen Heim wichtig sein.
Lokalisierung in Verarbeitungsprozessen
In der Fabrikproduktion werden Werkstücke zunehmend automatisch bearbeitet. Beispiel dafür ist die Lasertechnik, mit deren Hilfe Werkstücke geschweißt, gefräst und geschnitten werden können. Hierfür ist eine sehr genaue visuelle Analyse des Prozesses notwendig, wobei die aktuelle Position des Werkstückes im Vergleich zum Lasergerät sehr genau zu bestimmen ist, um auch auf kleinstem Raum präzise arbeiten zu können. Gleichzeitig muss die Bildanalyse in den Verarbeitungsprozess integriert werden, um ein externes Eingreifen und Steuern zu ermöglichen sowie besondere Aspekte der Interaktion zu berücksichtigen.
Deviceless 3D-Steuerung
Das Ziel dieses Arbeitsbereiches besteht in der automatischen Kalibrierung von Powerwalls, also Interaktionsflächen, die durch mehrere Projektoren ein großes stereoskopisches Bild erzeugen. Probleme treten hier vor allem in den Randbereichen der einzelnen Projektorbilder auf: Verzerrungen und Farbschwankungen sind hier nur mit aufwendigen manuellen Verfahren und auch nicht immer vollständig zu bereinigen. Hierzu sollen mehrere Kameras das Zusammenspiel einzelner Projektoren erfassen und darüber hinaus die Interaktion des Nutzers mit dem System gestatten. Diese Kameras wiederum produzieren eigene Verzerrungen und Farbabweichungen. Komplexer wird die Problematik vor allem in Räumen, in denen nicht genügend Tiefe herrscht, als dass eine Kamera das Gesamtbild überwachen könnte. Hier müssen wieder mehrere Kameras mit unterschiedlichen Perskpektiven eingesetzt werden.