2017-11-18 | Anmelden
 
 

Modellbasierte Tools zur Objekterkennung in Videomaterial

object
Videoannotations-Tool [aus: Ritter et.al. Rapid Model-Driven Anno­ta­tion and Eval­u­a­tion for Object Detec­tion in Videos]

Prof. Dr. Maximilian Eibl und Michael Storz von der Professur für Medieninformatik entwickelten gemeinsam mit Jun.-Prof. Dr. Marc Ritter und Manuel Heinzig von der Juniorprofessur Media Computing Tools zur Annotation und Evaluation zur Objekterkennung in Videomaterial. Dafür erweiterten sie einen modellbasierten Ansatz zur Annotation von Bildmaterialien auf Videos und testeten diesen im Vergleich mit anderen Tools, die derzeit auf im Forschungsbereich existieren. Ergebnis dieser Forschung sind u.a. zwei Komponenten zur schnellen Videoannotation und Evaluation. Die Videoannotationskomponente ermöglicht das Springen zu einzelnen Frames während in einer Liste und in der zugehörigen Timeline die annotierten Elemente angezeigt werden. Mit der Evaluationskomponente können die erkannten Objekte schließlich als falsch oder positiv bewertet werden. Die Entwicklung der beiden Komponenten dient dem Team von LocalizeIt und der Juniorprofessur außerdem als Vorbereitung auf die Teilnahme am diesjährigen Track „Instance Search“ innerhalb der vom amerikanischen Institut for Standards and Technologies jährlich veranstalteten wissenschaftlichen Evaluationskampagne TRECVid (Text Retrieval Evaluation Campaign on Videos).

Die Ergebnisse der gemeinsamen Forschungsarbeit wurden im Rahmen des „Universal Access Workshops“ auf der „17th International Conference on Human-Computer Interaction“ (HCII) in Los Angeles, USA vor.

Publikation: Rit­ter, Marc; Storz, Michael; Heinzig, Manuel & Eibl, Max­i­m­il­ian. Rapid Model-Driven Anno­ta­tion and Eval­u­a­tion for Object Detec­tion in Videos. In: Uni­ver­sal Access in Human-Computer Inter­ac­tion. Access to Inter­ac­tion, Part I. Lec­ture Notes in Com­puter Sci­ence, Nr. 9175. Switzer­land: Springer Inter­na­tional Pub­lish­ing. HCIInter­na­tional, Los Ange­les, CAUSA, 02.-07.08.2015, S.464–474. [Link]

 

Entwicklung kognitiver Tools für intelligente CAD-Systeme

Die Nutzung professioneller CAD (computer-aided design) Software erfordert nicht nur fachliches Know How, sondern auch Übung im Umgang mit der Software. Prof. Dr. Dr. Gisela S. Bahr und Prof. Stephen L. Wood vom Department of Biomedical Engineering des Florida Institute of Technology untersuchten gemeinsam mit Jun.-Prof. Dr. Marc Ritter, Inhaber der Juniorprofessur Media Computing der TU Chemnitz, kognitive Tools, die CAD-Nutzer bei ihrer Arbeit unterstützen sollen. Ziel ist es, unerfahrenen Nutzern Lösungsvorschläge anzubieten, mit denen sie ihr aktuelles Projekt verbessern können. Als Grundlage für diese Vorschläge dient eine Studie, in der erfahrene CAD-Nutzer beobachtet und deren Lösungsansätze für verschiedene Problemstellungen weiterverarbeitet wurden. Beispielsweise wird Anfängern somit eine Möglichkeit an die Hand gegeben, Muster und Hinweise einblenden zu lassen, um sich schneller mit dem Programm und dessen Möglichkeiten vertraut zu machen. Eine weitere Unterstützungsmöglichkeit auf dem Weg zum intelligenten CAD-System bilden Widgets, die Aufgaben automatisch ergänzen oder einem erfahrenen Nutzer Kniffe zeigen, die ursprünglich von anderen erfahrenen Ingenieuren mit derselben oder ähnlichen Problemstellung stammen.

Publikation: Bahr, Gisela Susanne; Wood, Stephen & Rit­ter, Marc. Cog­ni­tive Tools for Design Engi­neers: A Frame­work for the Devel­op­ment of Intel­li­gent CAD Sys­tems. In: i-com 14(2), S.138–146. [Link]

 

Akustische Präsenzermittelung von Walen in Unterwasseraufnahmen

whale detection

Spektrogramm (li.) und Pseudo Wigner-Ville Distribution (re.) [Ou et al. (2015), JASA in Klinck & Ritter, DCLDE Workshop, Präsen­ta­tion, S.14]

Dr. Holger Klinck vom Cornell Lab of Ornithology der Cornell University in NY, USA und Jun.-Prof. Dr. Marc Ritter von der Juniorprofessur Media Computing der TU Chemnitz entwickelten eine automatisierte Methode zur Detektion verschiedener Walarten anhand von akustischen Unterwasseraufnahmen, die mit Hilfe von sogenannten Hydrophonen (Unterwassermikrofone) aufgenommen wurden. Der erste Schritt dieser Auswertung von Langzeitdaten ist die Berechnung einer Fourier-Transformation (FFT) der aufgezeichneten Daten (200 Hz Abtastrate). 5 Sekunden Audiodaten werden so in ein Spektrogramm mit der Auflösung 30 x 50 Pixel umgewandelt. Nach dem Entrauschen des Spektrogramms können die Graustufen schließlich als JPEG exportiert und als Trainings- und Testdaten mit Hilfe maschineller Komitee-basierter Lernverfahren der Boosting-Klasse weiterverarbeitet werden. Die Ergebnisse der gemeinsamen Forschungsarbeit stellte Dr. Holger Klinck im Rahmen des 7. internationalen Workshops für Detection, Classification, Localization, and Density Estimation (DCLDE) in San Diego, Kalifornien, USA vor.

Mit ihrer Forschungsarbeit erzielten die beiden Institute im diesjährigen Workshop die besten Resultate. Auf der Verarbeitung dieser Massendaten aufbauend, soll zukünftig ebenfalls die Präzision im maschinellen Lernen noch weiter erhöht werden.

Publikation: Klinck, Hol­ger & Rit­ter, Marc. Auto­mated iden­ti­fi­ca­tion of blue and fin whale vocal­iza­tions using an ensemble-based clas­si­fi­ca­tion sys­tem. In: The 7th Inter­na­tional DCLDE [Detec­tion, Clas­si­fi­ca­tion, Local­iza­tion, and Den­sity Esti­ma­tion] Work­shop 13.-16.07.2015, La Jolla, CA, USA, Präsen­ta­tion, 1. Platz bei der Detek­tion von Barten­walen im Nieder­fre­quenzbere­ich. [Link]

 

Explorative Studie zur Eliminierung von Gesichtern durch Vergessen

Methodik der Datenreduktion bestehend aus Schnittanalyse und Gesichtsdetektion. [aus: Ritter, Marc; Bahr, Gisela S., ICME Workshops, Präsentation, S.17]

Methodik der Datenreduktion bestehend aus Schnittanalyse und Gesichtsdetektion. [aus: Ritter & Bahr, ICME Workshops, Präsentation, S.17]

Prof. Dr. Dr. Gisela Susanne Bahr vom Department of Biomedical Engineering des Florida Institute of Technology und Jun.-Prof. Dr. Marc Ritter von der Juniorprofessur Media Computing der TU Chemnitz präsentierten im Rahmen des Human Memory-Inspired Multimedia Organization and Preservation (HMMP) Workshops auf der renommierten Konferenz IEEE International Conference on Multimedia and Expo (ICME) 2015 in Torino, Italien die Ergebnisse ihrer gemeinschaftlichen Studie. Inspiriert von Aspekten des menschlichen Vergessens, wurden Kriterien untersucht, mit deren Hilfe Gesichter in großen Datenbeständen in Erinnerung behalten oder gelöscht werden können. Als Datenmaterial diente die Analyse von 122 Episoden zusammengefasster 100 sekündiger Webcasts der deutschen Tagesschau vom April und Mai 2011. Dabei wurden relevante Merkmale identifiziert und mit maschinell erlernten Merkmalen verglichen, wobei vor allem die Qualität von Gesichtern in unterschiedlichen Größen und Schärfeeinstellungen eine wichtige Rolle spielen. Durch gezielte Eliminierung von ähnlichen oder nicht-adäquaten Bildaufnahmen ergibt sich ein Potential zur Reduktion der speicherbaren Gesichtsdatenmenge von bis zu 75%.

Publikation: Rit­ter, Marc & Bahr, Gisela Susanne. An exploratory study to iden­tify rel­e­vant cues for the dele­tion of faces for mul­ti­me­dia retrieval. In: IEEE Inter­na­tional Con­fer­ence on Mul­ti­me­dia & Expo Work­shops on Human Memory-Inspired Mul­ti­me­dia Orga­ni­za­tion and Preser­va­tion, Turin, Italy, 29.06.-03.07.2015, S.1–6. [Link]

 

Verbesserung von Farbkalibrierverfahren für Projektoren

Measured color gamut of the Sanyo PDG-DWL 2500 projector with 64³ samples in the camera’s native color space [Quelle: Marcel Heinz; Guido Brunnett: Dense Sampling of 3D Color Transfer Functions Using HDR Photography]

Gemessene Farbskala des Sanyo PDG-DWL 2500 Projektors mit 64³ Samples im nativen Farbraum der Kamera [Quelle: Marcel Heinz; Guido Brunnett: Dense Sampling of 3D Color Transfer Functions Using HDR Photography]

LocalizeIT Mitarbeiter Dr. Marcel Heinz entwickelte in Zusammenarbeit mit Prof. Dr. Guido Brunnett von der Professur für Graphische Datenverarbeitung und Visualisierung der Fakultät für Informatik an der Technischen Universität Chemnitz eine verbesserte Methode zur Messung von 3D-Farbtransferfunktionen (engl. Color Transfer Functions – CTF) und präsentierten diese gemeinsam im Rahmen des IEEE CCD/PROCAMS 2015 Workshops auf der CVPR 2015 in Boston – der international hochrangigsten und größten Konferenz auf dem Gebiet der Muster- und Bilderkennung/Computer Vision.

Die entwickelte Methode beschleunigt die Bestimmung der CTFs, welche für die Kalibrierung von Mehrsegment-Projektionsanlagen hinsichtlich Farb- und Helligkeitswiedergabe unverzichtbar sind. Bisherige Methoden zur Messung von Projektorausgaben benötigen pro Messung mehrere Sekunden und weichen meist stark von einem idealen RGB-Modell ab. Dadurch sind diese Methoden in praxisrelevanten Zeiträumen weder verhältnismäßig noch qualitativ zufriedenstellend. Marcel Heinz und Guido Brunnett entwickelten unter Benutzung einer digitalen Spiegelreflexkamera eine Messmethode mit einer wesentlich höheren Sampledichte (64x64x64), die die Fehlerquote um ca. 30% reduziert. Dies ist eine wichtige Grundlage für die zu entwickelnden Kalibrierverfahren im Arbeitsbereich „Deviceless 3D-Steuerung“.

Publikation: Heinz, Mar­cel & Brun­nett, Guido. Dense Sam­pling of 3D Color Trans­fer Func­tions using HDR pho­tog­ra­phy. In: The IEEE Con­fer­ence on Com­puter Vision and Pat­tern Recog­ni­tion (CVPR) Work­shops, S.25–32. [Link]

 

Pressespiegel Q1/2015

Aus der Vernetzung Synergien schöpfen

Rektorat der TU Chemnitz steht im engen Dialog mit den Juniorprofessoren der Universität

erschienen in Technische Universität Chemnitz, Uni aktuell, Online-Newsletter, 03.02.2015
[Link]

Von der Fotoanalyse zum videobasierten Monitoring

Die InnoProfile-Transfer-Initiative localizeIT erforscht an der Stiftungsjuniorprofessur Media Computing Lokalisierungsfragen in audiovisuellen Medien – Auftaktworkshop am 22. Januar 2015

erschienen in Technische Universität Chemnitz, Uni aktuell, Online-Newsletter, 20.01.2015
[Link]

 

Neujahrsgrüße 2015

Die InnoProfile-Transfer-Initiative localizeIT meldet sich frisch und verstärkt aus dem Jahreswechselurlaub zurück: Wir begrüßen Norbert Englisch in unserem Team, welcher seit heute als Wissenschaftlicher Mitarbeiter mit in der Initiative arbeitet.

Wir wünschen den interessierten Lesern und Partnern der Initiative ein gesundes und erfolgreiches Jahr 2015!

 

Diagnose von Augenkrankheiten mittels Bilderkennung

Stefan Kahl von der Professur Medieninformatik und Jun.-Prof. Dr. Paul Rosenthal von der Juniorprofessur Visual Computing entwickelten gemeinsam mit Jun.-Prof. Dr. Marc Ritter von der Juniorprofessur Media Computing eine Möglichkeit zur automatischen Beurteilung der Schädigungssituation von AMD-Patienten (altersbedingte Makuladegeneration). Dabei handelt es sich um die Schädigung der Netzhaut in der Makula, also dem Bereich des schärfsten Sehens. Das Forschungsteam entwarf in seiner Arbeit einen zweidimensionalen Bildverarbeitungsalgotithmus, um den Verlauf des retinalen Pigmentepitels (kurz RPE) zu detektieren. Weiterhin entwickelten sie ein Tool zur Annotation von RPE-Verläufen, wobei einzelne Stellgrößen des kreierten Algorithmus‘ automatisch an einen vorhandenen Datensatz angepasst und daraus eine visuelle Darstellung der Schädigungssituation ableitbar ist.

Stefan Kahl präsentierte die Ergebnisse dieser Arbeit auf dem „Forum Bildverarbeitung 2014“, einer internationalen Konferenz des Fraunhofer Instituts, das sich den Trends in der Bildverarbeitung im industrienahen Bereich widmet.

Publikation: Kahl, Stefan; Ritter, Marc & Eibl, Maximilian. Automatisierte Beurteilung der Schädigungssituation bei Patienten mit altersbedingter Makuladegeneration (AMD). In: Forum Bildverarbeitung, 27.11. – 28.11.2014, Regensburg, S. 179 – 190. – Karlsruhe : KIT Scientific Publishing, 2014 [Link]

 

Nachhaltige Softwareentwicklung für Intelligente Videoanalyse

Vortrag_Nov2014_1

Jun.-Prof. Dr. Marc Ritter referiert über die Nachhaltigkeit des für Lehre und Forschung konzipierten Frameworks zur audiovisuellen Analyse von großen Datenbeständen.

Auf dem diesjährigen Symposium on Computational Sustainability (SoCS 2014) hielt Jun.-Prof. Dr. Marc Ritter vom 26.-28. November 2014 im sächsischen Görlitz einen Vortrag zum Thema Sustainable Analysis of Large Audiovisual Data Collections.

Zum Inhalt gehörte unter anderem die Vorstellung des für Forschungs- und Lehrzwecke entwickelten Softwareframeworks AMOPA (Automated MOving Picture Annotator). Dieses wurde von 2007 bis 2014 an der Professur Medieninformatik der TU Chemnitz in der vorangegangenen InnoProfile-Initiative sachsMedia entwickelt und seine Funktionsfähigkeit im Projekt ValidAX auf großen Datenmengen lokaler Fernsehsender validiert.

Mehr als 30 betreute studentische Abschlussarbeiten und die Dissertation von Marc Ritter belegen die Nachhaltigkeit der Entwicklung dieses Frameworks und dessen Einsetzbarkeit und Adaptionsfähigkeit für verschiedenste Anwendungsfälle. Zudem wird es aktuell in Lehrveranstaltungen erprobt. Diese Erfahrungen sollen helfen, die Weiterentwicklung des Frameworks innerhalb der InnoProfile-Transfer-Initative localizeIT voranzutreiben und auf die Projektinhalte auszurichten, die mit den Anwendungsfällen und Vorlaufforschungsbedarfen der regionaler Stifter und Forschungspartner korrelieren.

Das Symposium wurde von der Fachgruppe für Enterprise Application Development um Prof. Dr. Jörg Lässig von der Hochschule Zittau/Görlitz ausgerichtet. Weitere Informationen zum Thema Nachhaltigkeit von Technologien und Anwendung finden sich auch unter SITA Research.

Publikation: Rit­ter, Marc. Towards a Sus­tain­able Frame­work for the Analy­sis of Large Audio­vi­sual Data Col­lec­tions. In: Pro­ceed­ings of Sym­po­sium on Com­pu­ta­tional Sus­tain­abil­lity 2014, 27.-29.11.2014, Gör­litz, Sach­sen. LNCS, Springer, 10 S., In press.

 

Erfolgreiche Teilnahme beim TRECVID Instance Search

Im Rahmen einer Kooperation von Mitarbeitern der Stiftungsjuniorprofessur Media Computing und der Professur Medieninformatik der Technischen Universität Chemnitz ist es den Nachwuchswissenschaftlern unter Leitung von Jun.-Prof. Dr. Marc Ritter zwischen April und August 2014 gelungen, ein System zur Teilnahme an der wissenschaftlich renommierten Evaluationskampagne TREC Video Retrieval Evaluation (TRECVID) in der Kategorie Instance Search zu entwerfen und zu implementieren.

Die seit 2001 jährlich vom amerikanischen National Institute for Standards and Technologies (NIST) organisierten TRECVID Evaluationskampagnen befassen sich mit topaktuellen Forschungsproblemen, die im allgemeinen Kontext des Information Retrieval (IR) besonders auf inhaltsbasierte Suche und Nutzbarmachung digitaler Videos fokussiert. Das Ziel besteht darin, die Forschung auf diesen Themengebieten voranzutreiben, indem große Testkollektionen zusammen mit realistischen Aufgabenstellungen und einem einheitlichen Bewertungsverfahren veröffentlicht und ein Forum zum internationalen Vergleich der Ergebnisse gestellt wird.

Für die diesjährige Aufgabenstellung im Bereich Instance Search wurde ein Korpus von 464 Stunden Videomaterial der BBC Daily-Soap Eastenders zur Verfügung gestellt. Das Ziel bestand darin, bis zu 1.000 verschiedene Instanzen (Beispiele) von 30 verschiedenen Objekten, Personen oder Orten im Korpus aufzufinden. Wissenschaftlich interessant wird das Ganze bei genauerer Betrachtung der Struktur der Suchanfrage und der Trainingsdaten, die sich von üblichen Objektdetektionsverfahren deutlich abgrenzen, da hier statt Tausender an Trainingsbeispielen eine sehr geringe Anzahl von vier Beispielen vorliegt und kein zuvor erlerntes Objektmodell zur Anwendung gelangen darf. Darüber hinaus ist die Klasse des zu findenden Objekts oftmals nur grob definiert: Wird beispielsweise nach einer roten Plastikflasche gesucht, die Ketchup enthält, muss eine variable Objekterkennung sowohl bauchige als auch längliche Flaschen identifizieren können, wohingegen visuell sehr ähnlich beschaffene Glasflaschen mit Ketchup nicht erkannt werden dürfen.

Das achtköpfige Team von Nachwuchswissenschaftlern hat dabei vielfältige Ansätze und Lösungsstrategien verfolgt und intern evaluiert. Am erfolgversprechendsten erschien der Ansatz einer Gitter-Pyramide von MPEG-7 Deskriptoren, die auf ein bis fünf ausgewählten repräsentativen Bildern pro Kameraeinstellung berechnet wurden. Durch diesen dynamischen Ansatz war es möglich, die Anzahl der zu analysierenden Einzelbilder von fast 42 Millionen auf etwa 1,1 Millionen zu reduzieren. Weitere Verbesserungen ließen sich durch eine Analyse des Audio-Materials erzielen, so dass für verschiedene Szenen automatisiert eine Aussage getroffen werden konnte, ob es sich dabei um Innen- oder Außenszenen handelt. Verbliebene Fehldetektionen wurden unter Beachtung einer maximal 15 minütigen Nachlese händisch entfernt.

Die Ergebnisse wurden von Jun.-Prof. Dr. Marc Ritter vom 10.-12. November 2014 auf dem TRECVID Workshop an der University of Central Florida in Orlando, Florida, USA vorgestellt. Dabei konnten viele neue Erkenntnisse gewonnen werden, welche die zukünftigen Forschungen und Entwicklungen im Projekt localizeIT maßgeblich beeinflussen werden.

Publikation: Rit­ter, Marc ; Heinzig, Manuel ; Herms, Robert ; Kahl, Ste­fan ; Richter, Daniel ; Man­they, Robert & Eibl, Max­i­m­il­ian: Tech­nis­che Uni­ver­sität Chem­nitz at TRECVID Instance Search 2014. In: TRECVID Work­shop, 10.-12.11.2014, Orlando, Florida, USA, 8 S. [Link]

 
 
Projektgeber

Gef M BMBF

Gef M BMBF

LocalizeIt wird durch das Bundesministerium für Bildung und Forschung BMBF und die BMBF Innovationsinitiative Unternehmen Region von August 2014 bis Juli 2019 gefördert und durch den Projektträger PtJ betreut.

Projektnehmer

Logo TU trans cropp

Logo MI

Logo MC TRANS

localizeIT ist ein Projekt der
Stiftungsjuniorprofessur Media Computing und der Professur Medieninformatik der Technischen Universität Chemnitz

Forschungspartner

Intenta Logo

3D MicroMag Logo

IBS Logo

Kontakt

Dr. rer. nat. Danny Kowerko
Tech­ni­sche Uni­ver­si­tät Chem­nitz
Fakul­tät für Infor­ma­tik
Juniorpro­fes­sur Medi­a Computing
Straße der Natio­nen 62
09111 Chemnitz