Publikation

TrecVid Instance Search 2016

2017-02-27 von Evelyn Lorenz in Publikation

Kommentare deaktiviert

Webinterface für Annotation [Quelle: S. Kahl: Präsentation TUC at TrecVid 2016

Auch in diesem Jahr beteiligte sich die Juniorprofessur Media Computing am alljährlichen TrecVid Instance Search Wettbewerb. Die internationale wissenschaftliche Evaluationskampagne TRECVID ist eine etabilierte Serie von Workshops, die sich auf die inhaltsbasierte Informationsgewinnung und Auswertung digitaler Videos konzentriert. Jedes Jahr stellen sich Teilnehmer einer neuen realitätsnahen Aufgabe, die Forscher diverser internationaler Institute in einem Wettbewerb versuchen bestmöglich zu lösen. Die TRECVID-erfahrenen Forscher der Juniorprofessur Media Computing und der Professur Medieninformatik der Technischen Universität Chemnitz nahmen nunmehr zum dritten Mal teil, dieses Jahr in den Kategorien “Instance Search Automatic Run” (AR) und “Instance Search Interactive Run” (IR).

Ziel war die Verbesserung der Vorjahres-Ergebnisse unter Nutzung von Open Source Tools auf Consumer Hardware. Dabei sollten vor allem speziell entwickelte Annotationswerkzeuge zur kollaborativen Nutzung über ein Webinterface zum Einsatz kommen mit denen mehr Ground-Truth Daten pro Zeiteinheit erzeugt werden können. Außerdem wurden Zeiten erfasst um u.a. die effizientesten Nutzer für den interaktiven Run zu bestimmen. Daten-Grundlage des Wettbewerbs war auch dieses Mal wieder die britische TV-Serie “Eastenders”. Im Wettbewerb galt es bestimmte Rollen der Serie an einem definierten Ort automatisiert zu ermitteln. Dazu erfolgte im ersten Schritt nach der Extraktion der sog. Keyframes deren Annotation durch Markieren von Personen mit Bounding Boxen (mittels Rechtecken, siehe Abbildung) und Metadatenanreicherung mit Ortsinformationen. Zur Personen- und Ortsklassifikation wurden dann im zweiten Schritt neuronale Netze (CNNs — Convolutional Neural Networks) trainiert. Da aufeinanderfolgende Bilder am selben Ort mit großer Wahrscheinlichkeit zu einer Szene (Shot) gehören, wurden Ähnlichkeitsmetriken angwandt, um Bilder einem Shot und damit einer Gruppennummer zuzuordnen. Schritt drei beinhaltete ein Re-Ranking der Ergebnisse der CNNs durch Mittelung der CNN-Konfidenzwerte aller Bilder einer Gruppe. Schließlich folgte im interaktiven Run die manuelle Evaluation der Ergebnisse mit Hilfe des Webinterfaces durch den zeiteffizientesten Annotator.

Die Forscher erzielten mit ihrer Methode eine durchschnittliche Trefferquote von 31,8% im Interactive Run und 14,4% im Automatic Run, wobei die Top 10 Präzision 90,5% (IR) und 49,7% (AR) betrug. Damit erreichte die TU Chemnitz den 2. Platz im Interactive Run und den 5. Platz im Automatic Run.

Kontexterkennung auf mobilen Endgeräten mittels Sensorfusion

2017-02-23 von Evelyn Lorenz in Presse / Publikation

Kommentare deaktiviert

Im Rahmen seiner Promotion betreibt Maik Benndorf, von der Hochschule Mittweida, weiterführende Forschung im Bereich der Kontexterkennung auf Smartphones. Ein modernes Smartphone hat heute bis zu 40 eingebaute Sensoren. In seiner Arbeit möchte Maik Benndorf aus den Daten dieser Sensoren Rückschlüsse auf die Situation des Nutzers ziehen. Anwendung findet die Kontexterkennung in sogenannten kontextsensitiven Anwendungen. Eine solche Anwendung kann das Smartphone während eines Meetings z. B. in ein lautloses Profil stellen.

Ebenfalls auf Sensordaten beruht ein Verfahren zur Positionsbestimmung, das „Dead Reckoning“ (dt. Koppelnavigation) genannt wird. Dieses Verfahren ist bereits seit der frühen Seefahrt bekannt und wird genutzt, um von einem bekannten Punkt ausgehend die aktuelle Position zu bestimmen. Während dazu früher Kompass und Fahrtenmesser zum Einsatz kamen, werden heute Bewegungssensoren wie z.B. der Beschleunigungssensor oder das Gyroskop eingesetzt. Während seines Forschungsaufenthalts am Cornell Lab of Ornithology (USA) beschäftigte sich Maik Benndorf mit dieser Art der Positionsbestimmung. Dabei soll das Ergebnis seiner Arbeit eingesetzt werden, um die Bewegungen von Tieren in freier Wildbahn zu überwachen. Hierzu wird das Tier mit einem Halsband versehen, welches die Sensoren beinhaltet und fortwährend Daten aufzeichnet. Anhand dieser Daten lässt sich so die zurückgelegte Strecke des überwachten Tieres nachvollziehen. Bleibt die Frage, warum dazu kein GPS System eingesetzt wird? Ein großer Nachteil dieses Systems ist der Energieverbrauch, wodurch es für solche Langzeitstudien recht ungeeignet ist.

Daneben kann Dead Reckoning auch zur Navigation in Gebäuden eingesetzt werden, da die GPS-Signale hier in der Regel nicht bzw. nur eingeschränkt nutzbar sind. Smartphones verfügen standardmäßig über alle dafür notwendigen Sensoren. Maik Benndorfs Promotions mit dem Titel „Untersuchung und Optimierung der Kontexterkennung auf mobilen Endgeräten mittels Sensorfusion“ wird vom ehemaligen localizeIT Projektleiter Prof. Dr. Marc Ritter und Prof. Thomas Haenselmann von der Hochschule Mittweida betreut.

Optimierte Analyse von Laserschweißprozessen durch modellbasierte Bildverarbeitung

2016-10-18 von Evelyn Lorenz in Publikation

Kommentare deaktiviert

Standbild des Laserschweißprozesses mit modellierter Ellipse [aus: Kowerko, Danny; Ritter, Marc; Manthey, Robert; John, Björn & Grimm, Michael: Quanti?zierung der geometrischen Eigenschaften von Schmelzzonen bei Laserschweißprozessen]

In Zusammenarbeit mit der 3D Micromac AG fanden Mitarbeiter der Juniorprofessur Media Computing eine Möglichkeit die qualitative Analyse von Laserschweißprozessen zu optimieren. Dies gelang durch die Kombination von modellbasierter Bildverarbeitung mit neuer Kameratechnologie, die Aufnahmen mit 2.000 Bildern pro Sekunde bei einer Auflösung von 1024 ×768 Pixeln erlaubt. Die Ergebnisse dieser Arbeit stellen die Forscher vom 1.- 2. Dezember 2016 auf dem Forum Bildverarbeitung in Karlsruhe vor.

Die 3D Micromac AG ist ein Spezialist auf dem Gebiet der Lasermikrobearbeitung und somit abhängig von präzisen Analysen ihrer Prozesse. Im Mikrometerbereich sind Hochgeschwindigkeitsaufnahmen der Schmelzzone meist die einzige Möglichkeit für die Qualitätseinschätzung. Ein mehrstufiges OpenCV-basiertes Bildverarbeitungsverfahren modellierte dabei mit Hilfe einer Ellipse die Schmelzzone während des Laserschweißprozesses. Die Parameter dieser Ellipse wurden dann als Funktion der Zeit durch lineare Regression approximiert, was Rückschlüsse auf die Auswirkungen verschiedener Faktoren, wie z.B. Laser‑, Werkstoff- und Werkzeugparameter auf das Fügeergebnis ermöglicht. Die Arbeit zeigte beispielsweise einen linearen Zusammenhang zwischen der Schmelzzonenfläche und der Laserleistung. Derartige Ableitungen von Gesetzmäßigkeiten sind erweiterbar auf andere Geräteparameter und erlauben künftig eine computergestützte Optimierung dieser Parameter in Bezug auf die gewünschte Schmelzzonengeometrie. Weiterhin soll es möglich sein neue technische Verfahren wie das Pulsen des Inertgasstromes durch Charakterisierung der Schmelzzonendynamik und Lokalisierung ungewollter Artefakte (z.B. Spritzer) zu evaluieren.

Publikation: Kowerko, Danny; Ritter, Marc; Manthey, Robert; John, Björn & Grimm, Michael: Quantifizierung der geometrischen Eigenschaften von Schmelzzonen bei Laserschweißprozessen

Datenreduktion mit geringem Datenverlust in der Videobilderkennung

2016-07-20 von Evelyn Lorenz in Publikation

Kommentare deaktiviert

Überblick von Ähnlichkeitsmaßen bewertet von Mensch und Maschine [aus: Ritter et al: Simplifying Accessibility Without Data Loss: An Exploratory Study on Object Preserving Keyframe Culling, S.9]

In Zusammenarbeit mit Prof. Dr. Dr. Gisela Susanne Bahr vom Florida Institute of Technology führte die Stiftungsprofessur Media Computing unter der Leitung von Jun.-Prof. Dr. Marc Ritter eine explorative Studie im Bereich der Bilderkennung in Videomaterial durch. Insbesondere geht es um die Reduzierung von Video-Keyframes unter Erhaltung aller relevanten Objektinstanzen, welche im Rahmen des TrecVid Instance Search Wettbewerbs 2015 [Link] ausgewählt wurden und in vier Stunden Videomaterial der BBC Serie “East Enders” erkannt werden sollten.

Bei der Analyse von Videomaterial erfolgt zunächst eine Auswahl von einzelnen Keyframes, die repräsentativ für die jeweilige Szene stehen. Um redundante Bilderinhalte zu vermeiden ist die Anzahl der ausgewählten Keyframes pro Szene so gering wie möglich zu halten, was durch eine fehlende Trainigsmöglichkeit des Algorithmus’ erschwert wird. Im Gegensatz zu anderen Forschern, die eine starre Anzahl von Keyframes auswählen (z.B. ein Keyframe pro Sekunde), entschieden sich die Forscher für eine Auswahlmethode, die sich an der Länge der Szene orientiert, da sich Objektpositionen innerhalb längerer Szenen verändern können. In ihrer Studie sortierten die Forscher dann manuell die übrigen Duplikate aus und versuchten die angewandten Auswahlkriterien objektiv zu evaluieren und mit computergestützten Maßen maschinell nachzustellen. Dabei erreichten sie eine Reduzierung der repräsentativen Keyframes um 84% bei Erhalt von 82% aller Instanzen der auftretenden Objektklassen.

Die Vorstellung der Ergebnisse der Studie erfolgt im Juli diesen Jahres auf der Conference on Human-Computer Interaction International (HCII) in Toronto, Kanada.

Publikation: Ritter, Marc; Kowerko, Danny; Hussein, Hussein; Heinzig, Manuel; Schlosser, Tobias; Manthey, Robert & Bahr, Gisela Susanne: Simplifying Accessibility Without Dataloss: An Exploratory Study on Object Preserving Keyframe Culliung. In: Universal Access in Human-Computer Interaction. Part of Human Computer Interaction International (HCII) 2016, At Toronto, Canada, Volume: LNCS, 12 S. [Link]

Klassifizierung akustischer Ereignisse zur Unterstützung im Pflegebereich

2016-04-07 von Evelyn Lorenz in Publikation

Kommentare deaktiviert

Mitarbeiter der Juniorprofessur Media Computing und der Intenta GmbH reichten eine Forschungsarbeit zum Thema der Klassifizierung von Audioereignissen, wie Sprache und für den Pflegebereich typische Geräusche, auf der Konferenz für Elektronische Sprachsignalverarbeitung (ESSV) in Leipzig von 2. bis 4. März 2016 ein.

Frequenzspektren von Sprach- sowie nicht-Sprachereignissen [aus: Hussein et al: Acoustic Event Classification for Ambient Assisted Living and Health Environments]

Im Rahmen der Forschung zeichneten die Forscher typische Sprach- sowie nicht-Sprachsequenzen, wie Schreie, brechende Scheiben, Möbelverrücken, etc. mit 58 Probanden auf und annotierten diese manuell. Die Extrahierung der Sprachmerkmale, unterteilt in zeitabhängige und frequenzabhängige Merkmale, ergab, dass Sprachereignisse aufgrund ihrer spektralen Strukturen besser klassifiziert werden können als nicht-Sprachereignisse. Anschließend nutzten die Forscher vielversprechende Klassifikatoren zur Einteilung der akustischen Ereignisse in verschiedene Klassen. Die besten Ergebnisse erreichte dabei der Klassifikator SMO (engl.: sequential minimal optimization) mit 92,5%.

Publikation: Hussein, Hussein; Ritter, Marc; Manthey, Robert & Heinzig, Manuel: Acoustic Event Classification for Ambient Assisted Living and Healthcare Environments. In: Konferenzpaper auf der 27. Konferenz Elektronische Sprachsignalverarbeitung 2016, Leipzig. [Link]

Erneute Teilnahme am TRECVID Instance Search 2015 — Mit neuen Methoden näher ans Ziel

2015-11-20 von Evelyn Lorenz in Publikation

Kommentare deaktiviert

Die internationale wissenschaftliche Evaluationskampagne TRECVID ist eine etabilierte Serie von Workshops, die sich auf die inhaltsbasierte Informationsgewinnung und Auswertung und digitaler Videos konzentriert. Jedes Jahr stellen sich Teilnehmer einer neuen realitätsnahen Aufgabe, die Forscher diverser internationaler Institute in einer Art Wettbewerb lösen. Die TRECVID-erfahrenen Forscher der Juniorprofessur Media Computing und der Professur Medieninformatik der Technischen Universität Chemnitz nahmen gemeinsam mit Prof. Dr. Dr. Gisela Susanne Bahr vom Florida Institute of Technology (FIT) zum zweiten Mal teil und waren dieses Jahr auch im Bereich der “Deep Learning Strategies” aktiv.

Zudem wurden neue Methoden bzw. deren Verknüpfungen im Task Instance Search angewendet, um die geforderten Bildinhalte in vier Durchgängen, davon ein interaktiver und drei automatische, korrekt zu erkennen. So wurden die Methoden CNN (Convolutional Neural Network), die eine Art künstliches neurales Netzwerk erstellen, bei dem die “Neuronen” auf sich überlappende Bereiche reagieren, und SIFT (Scale Invariant Feature Transform), bei dem die Merkmalsbeschreibungen invariant gegenüber z.B. Rotation, Skalierung, Beleuchtungsvariation etc. sind, mit einem vorangestellten Sequence Clustering (SC) kombiniert. Die Forscher stellten fest, dass die Methoden CNN und SIFT in mehr als der Hälfte der Fälle der geforderten Suchanfragen erfolgreich waren, wobei SIFT besonders gut bei strukturierten Objekten mit scharfen Kanten funktionierte. Zusätzlich erzielte das Sequence Clustering (SC) als Vorverarbeitungsprozess eine merkliche Verbesserung der Detektionsergebnisse, sodass die Forscher insgesamt mehrere verschiedene Potentiale zur Optimierung der Objekterkennung aufdeckten.

Die Ergebnisse wurden vom 16.–18. November 2015 beim National Institute of Standards and Technology, Maryland, USA von Juniorprofessor Dr. Marc Ritter präsentiert.

Publikation: Ritter, Marc; Rickert, Markus; Juturu Chenchu, Lokesh; Kahl, Stefan; Herms, Robert; Hussein, Hussein; Heinzig, Manuel, Manthey, Robert; Richter, Daniel; Bahr, Gisela Susanne & Eibl, Maximilian: Technische Universität Chemnitz at TRECVID Instance Search 2015. In: TRECVID Workshop, 16.–18.11.2015, Gaithersburg, Maryland, USA, 12 S. [Link@RG][Link@NIST]

Automatische Sprachmodelladaption für klinische Spracherkennung

2015-09-20 von Evelyn Lorenz in Publikation

Kommentare deaktiviert

Robert Herms und Prof. Dr. Maximilian Eibl von der Professur Medieninformatik entwickelten gemeinsam mit Daniel Richter und Jun.-Prof. Dr. Marc Ritter von der Juniorprofessur Media Computing eine Methode zu klinischen Spracherkennung und nahmen damit am CLEF (Conference and Labs of the Evaluation Forum) eHealth Evaluation Lab 2015 teil. Die Aufgabe bestand darin die Worterkennungsfehler beim Konvertieren von verbalen Patientenübergaben zwischen Pflegepersonal zu Frei-Form-Textdokumenten zu minimieren. Das Forschungsteam verfolgte hier den Ansatz, dass jedes gesprochene medizinische Dokument seinen eigenen Kontext besitzt. Der erste Schritt der Methode beinhaltet die Transkription eines Dokuments mittels eines ASR (automatic speech recognition) Systems. Die Schlüsselwörter des Textes werden dabei extrahiert und über eine Webanfrage zu einem adaptierten Wörterbuch sowie einem Sprachmodell hinzugefügt. Im zweiten Schritt folgt das erneute Dechiffrieren des selben Textes — diesmal jedoch mit Hilfe des adaptierten Wörterbuchs und Sprachmodells.

Im Vergleich zur ursprünglichen Methode ist eine Minimierung der Worterkennungsfehler zu sehen, jedoch ist keine Verbesserung in Bezug auf die insgesamte Korrektheit der gesprochenen Dokumente sichtbar. Die Ergebnisse ihrer Arbeit wurden auf dem Conference and Labs of the Evaluation Forum in Toulouse (Frankreich), präsentiert.

Publikation: Herms, Robert; Richter, Daniel; Eibl, Maximilian & Ritter, Marc: Unsupervised Language Model Adaptation using Utterance-based Web Search for Clinical Speech Recognition. In: Working Notes of Conference and Labs of the Evaluation Forum (CLEF), Toulouse, France, 08.–11.09.2015, 10 S. [Link]

TUCool — Optimierung von Klimaanlagen in Serverräumen

2015-08-18 von Evelyn Lorenz in Publikation

Kommentare deaktiviert

Schema zur erweiterten Wissensbasis von Hard- und Software der Klimatechnik [aus: Vodel et al: Adaptive Sensor Data Fusion for Efficient Climate Control Systems, S.6]

Gemeinsam mit PD Dr.-Ing Matthias Vodel und Prof. Dr. Wolfram Hardt, technischer Leiter des Universitätsrechenzentrums (URZ) der TU Chemnitz, entwickelte Jun.-Prof. Dr. Marc Ritter, von der Juniorprofessur Media Computing, ein Konzept zur effizienteren Kühlung von Serverräumen. Gemeinsam untersuchten sie Temperaturverläufe und Abhängigkeiten verschiedener Temperaturzonen, wobei sie die bereits verfügbare Hardware, wie Temperatursensoren, in diesen Prozess einbanden. Durch eine geschaffene gemeinsame Wissensbasis, die vorhandene Hard- und Software integriert, sind keine zusätzlichen Sensoren oder Techniken erforderlich. Erste Tests dieses Konzepts mit dem Namen “TU-Cool” zeigen bereits einen hohen Grad der Optimierung sowie erhebliche Kosteneinsparungen durch den jeweiligen Kompromiss zwischen Energieversorgung und Kühlungskapazitäten. Die Ergebnisse der gemeinsamen Arbeit präsentierte PD Dr.-Ing. habil. Matthias Vodel im Rahmen des “Universal Access” Workshops auf der “17th International Conference on Human-Computer Interaction” (HCII).

Publikation: Vodel, Matthias & Ritter, Marc. Adaptive Sensor Data Fusion for Efficient Climate Control Systems. In: Universal Access in Human-Computer Interaction. Access to Interaction, Part II. Lecture Notes in Computer Science, Nr. 9176. Switzerland : Springer International Publishing. HCI International, Los Angeles, CA, USA, 02.–07.08.2015, S.582–593. [Link]

Modellbasierte Tools zur Objekterkennung in Videomaterial

2015-08-15 von Evelyn Lorenz in Publikation

Kommentare deaktiviert

: Videoannotations-Tool [aus: Ritter et.al. Rapid Model-Driven Annotation and Evaluation for Object Detection in Videos]

Prof. Dr. Maximilian Eibl und Michael Storz von der Professur für Medieninformatik entwickelten gemeinsam mit Jun.-Prof. Dr. Marc Ritter und Manuel Heinzig von der Juniorprofessur Media Computing Tools zur Annotation und Evaluation zur Objekterkennung in Videomaterial. Dafür erweiterten sie einen modellbasierten Ansatz zur Annotation von Bildmaterialien auf Videos und testeten diesen im Vergleich mit anderen Tools, die derzeit auf im Forschungsbereich existieren. Ergebnis dieser Forschung sind u.a. zwei Komponenten zur schnellen Videoannotation und Evaluation. Die Videoannotationskomponente ermöglicht das Springen zu einzelnen Frames während in einer Liste und in der zugehörigen Timeline die annotierten Elemente angezeigt werden. Mit der Evaluationskomponente können die erkannten Objekte schließlich als falsch oder positiv bewertet werden. Die Entwicklung der beiden Komponenten dient dem Team von LocalizeIt und der Juniorprofessur außerdem als Vorbereitung auf die Teilnahme am diesjährigen Track “Instance Search” innerhalb der vom amerikanischen Institut for Standards and Technologies jährlich veranstalteten wissenschaftlichen Evaluationskampagne TRECVid (Text Retrieval Evaluation Campaign on Videos).

Die Ergebnisse der gemeinsamen Forschungsarbeit wurden im Rahmen des “Universal Access Workshops” auf der “17th International Conference on Human-Computer Interaction” (HCII) in Los Angeles, USA vor.

Publikation: Ritter, Marc; Storz, Michael; Heinzig, Manuel & Eibl, Maximilian. Rapid Model-Driven Annotation and Evaluation for Object Detection in Videos. In: Universal Access in Human-Computer Interaction. Access to Interaction, Part I. Lecture Notes in Computer Science, Nr. 9175. Switzerland: Springer International Publishing. HCIInternational, Los Angeles, CA, USA, 02.–07.08.2015, S.464–474. [Link]

Entwicklung kognitiver Tools für intelligente CAD-Systeme

2015-08-01 von Marc Ritter in Publikation

Kommentare deaktiviert

Die Nutzung professioneller CAD (computer-aided design) Software erfordert nicht nur fachliches Know How, sondern auch Übung im Umgang mit der Software. Prof. Dr. Dr. Gisela S. Bahr und Prof. Stephen L. Wood vom Department of Biomedical Engineering des Florida Institute of Technology untersuchten gemeinsam mit Jun.-Prof. Dr. Marc Ritter, Inhaber der Juniorprofessur Media Computing der TU Chemnitz, kognitive Tools, die CAD-Nutzer bei ihrer Arbeit unterstützen sollen. Ziel ist es, unerfahrenen Nutzern Lösungsvorschläge anzubieten, mit denen sie ihr aktuelles Projekt verbessern können. Als Grundlage für diese Vorschläge dient eine Studie, in der erfahrene CAD-Nutzer beobachtet und deren Lösungsansätze für verschiedene Problemstellungen weiterverarbeitet wurden. Beispielsweise wird Anfängern somit eine Möglichkeit an die Hand gegeben, Muster und Hinweise einblenden zu lassen, um sich schneller mit dem Programm und dessen Möglichkeiten vertraut zu machen. Eine weitere Unterstützungsmöglichkeit auf dem Weg zum intelligenten CAD-System bilden Widgets, die Aufgaben automatisch ergänzen oder einem erfahrenen Nutzer Kniffe zeigen, die ursprünglich von anderen erfahrenen Ingenieuren mit derselben oder ähnlichen Problemstellung stammen.

Publikation: Bahr, Gisela Susanne; Wood, Stephen & Ritter, Marc. Cognitive Tools for Design Engineers: A Framework for the Development of Intelligent CAD Systems. In: i‑com 14(2), S.138–146. [Link]

localizeIT / Publikation

Publikation