2017-09-22 | Anmelden
 
 

Publikation

Akustische Präsenzermittelung von Walen in Unterwasseraufnahmen

whale detection

Spektrogramm (li.) und Pseudo Wigner-Ville Distribution (re.) [Ou et al. (2015), JASA in Klinck & Ritter, DCLDE Workshop, Präsen­ta­tion, S.14]

Dr. Holger Klinck vom Cornell Lab of Ornithology der Cornell University in NY, USA und Jun.-Prof. Dr. Marc Ritter von der Juniorprofessur Media Computing der TU Chemnitz entwickelten eine automatisierte Methode zur Detektion verschiedener Walarten anhand von akustischen Unterwasseraufnahmen, die mit Hilfe von sogenannten Hydrophonen (Unterwassermikrofone) aufgenommen wurden. Der erste Schritt dieser Auswertung von Langzeitdaten ist die Berechnung einer Fourier-Transformation (FFT) der aufgezeichneten Daten (200 Hz Abtastrate). 5 Sekunden Audiodaten werden so in ein Spektrogramm mit der Auflösung 30 x 50 Pixel umgewandelt. Nach dem Entrauschen des Spektrogramms können die Graustufen schließlich als JPEG exportiert und als Trainings- und Testdaten mit Hilfe maschineller Komitee-basierter Lernverfahren der Boosting-Klasse weiterverarbeitet werden. Die Ergebnisse der gemeinsamen Forschungsarbeit stellte Dr. Holger Klinck im Rahmen des 7. internationalen Workshops für Detection, Classification, Localization, and Density Estimation (DCLDE) in San Diego, Kalifornien, USA vor.

Mit ihrer Forschungsarbeit erzielten die beiden Institute im diesjährigen Workshop die besten Resultate. Auf der Verarbeitung dieser Massendaten aufbauend, soll zukünftig ebenfalls die Präzision im maschinellen Lernen noch weiter erhöht werden.

Publikation: Klinck, Hol­ger & Rit­ter, Marc. Auto­mated iden­ti­fi­ca­tion of blue and fin whale vocal­iza­tions using an ensemble-based clas­si­fi­ca­tion sys­tem. In: The 7th Inter­na­tional DCLDE [Detec­tion, Clas­si­fi­ca­tion, Local­iza­tion, and Den­sity Esti­ma­tion] Work­shop 13.-16.07.2015, La Jolla, CA, USA, Präsen­ta­tion, 1. Platz bei der Detek­tion von Barten­walen im Nieder­fre­quenzbere­ich. [Link]

 

Explorative Studie zur Eliminierung von Gesichtern durch Vergessen

Methodik der Datenreduktion bestehend aus Schnittanalyse und Gesichtsdetektion. [aus: Ritter, Marc; Bahr, Gisela S., ICME Workshops, Präsentation, S.17]

Methodik der Datenreduktion bestehend aus Schnittanalyse und Gesichtsdetektion. [aus: Ritter & Bahr, ICME Workshops, Präsentation, S.17]

Prof. Dr. Dr. Gisela Susanne Bahr vom Department of Biomedical Engineering des Florida Institute of Technology und Jun.-Prof. Dr. Marc Ritter von der Juniorprofessur Media Computing der TU Chemnitz präsentierten im Rahmen des Human Memory-Inspired Multimedia Organization and Preservation (HMMP) Workshops auf der renommierten Konferenz IEEE International Conference on Multimedia and Expo (ICME) 2015 in Torino, Italien die Ergebnisse ihrer gemeinschaftlichen Studie. Inspiriert von Aspekten des menschlichen Vergessens, wurden Kriterien untersucht, mit deren Hilfe Gesichter in großen Datenbeständen in Erinnerung behalten oder gelöscht werden können. Als Datenmaterial diente die Analyse von 122 Episoden zusammengefasster 100 sekündiger Webcasts der deutschen Tagesschau vom April und Mai 2011. Dabei wurden relevante Merkmale identifiziert und mit maschinell erlernten Merkmalen verglichen, wobei vor allem die Qualität von Gesichtern in unterschiedlichen Größen und Schärfeeinstellungen eine wichtige Rolle spielen. Durch gezielte Eliminierung von ähnlichen oder nicht-adäquaten Bildaufnahmen ergibt sich ein Potential zur Reduktion der speicherbaren Gesichtsdatenmenge von bis zu 75%.

Publikation: Rit­ter, Marc & Bahr, Gisela Susanne. An exploratory study to iden­tify rel­e­vant cues for the dele­tion of faces for mul­ti­me­dia retrieval. In: IEEE Inter­na­tional Con­fer­ence on Mul­ti­me­dia & Expo Work­shops on Human Memory-Inspired Mul­ti­me­dia Orga­ni­za­tion and Preser­va­tion, Turin, Italy, 29.06.-03.07.2015, S.1–6. [Link]

 

Verbesserung von Farbkalibrierverfahren für Projektoren

Measured color gamut of the Sanyo PDG-DWL 2500 projector with 64³ samples in the camera’s native color space [Quelle: Marcel Heinz; Guido Brunnett: Dense Sampling of 3D Color Transfer Functions Using HDR Photography]

Gemessene Farbskala des Sanyo PDG-DWL 2500 Projektors mit 64³ Samples im nativen Farbraum der Kamera [Quelle: Marcel Heinz; Guido Brunnett: Dense Sampling of 3D Color Transfer Functions Using HDR Photography]

LocalizeIT Mitarbeiter Dr. Marcel Heinz entwickelte in Zusammenarbeit mit Prof. Dr. Guido Brunnett von der Professur für Graphische Datenverarbeitung und Visualisierung der Fakultät für Informatik an der Technischen Universität Chemnitz eine verbesserte Methode zur Messung von 3D-Farbtransferfunktionen (engl. Color Transfer Functions – CTF) und präsentierten diese gemeinsam im Rahmen des IEEE CCD/PROCAMS 2015 Workshops auf der CVPR 2015 in Boston – der international hochrangigsten und größten Konferenz auf dem Gebiet der Muster- und Bilderkennung/Computer Vision.

Die entwickelte Methode beschleunigt die Bestimmung der CTFs, welche für die Kalibrierung von Mehrsegment-Projektionsanlagen hinsichtlich Farb- und Helligkeitswiedergabe unverzichtbar sind. Bisherige Methoden zur Messung von Projektorausgaben benötigen pro Messung mehrere Sekunden und weichen meist stark von einem idealen RGB-Modell ab. Dadurch sind diese Methoden in praxisrelevanten Zeiträumen weder verhältnismäßig noch qualitativ zufriedenstellend. Marcel Heinz und Guido Brunnett entwickelten unter Benutzung einer digitalen Spiegelreflexkamera eine Messmethode mit einer wesentlich höheren Sampledichte (64x64x64), die die Fehlerquote um ca. 30% reduziert. Dies ist eine wichtige Grundlage für die zu entwickelnden Kalibrierverfahren im Arbeitsbereich „Deviceless 3D-Steuerung“.

Publikation: Heinz, Mar­cel & Brun­nett, Guido. Dense Sam­pling of 3D Color Trans­fer Func­tions using HDR pho­tog­ra­phy. In: The IEEE Con­fer­ence on Com­puter Vision and Pat­tern Recog­ni­tion (CVPR) Work­shops, S.25–32. [Link]

 

Diagnose von Augenkrankheiten mittels Bilderkennung

Stefan Kahl von der Professur Medieninformatik und Jun.-Prof. Dr. Paul Rosenthal von der Juniorprofessur Visual Computing entwickelten gemeinsam mit Jun.-Prof. Dr. Marc Ritter von der Juniorprofessur Media Computing eine Möglichkeit zur automatischen Beurteilung der Schädigungssituation von AMD-Patienten (altersbedingte Makuladegeneration). Dabei handelt es sich um die Schädigung der Netzhaut in der Makula, also dem Bereich des schärfsten Sehens. Das Forschungsteam entwarf in seiner Arbeit einen zweidimensionalen Bildverarbeitungsalgotithmus, um den Verlauf des retinalen Pigmentepitels (kurz RPE) zu detektieren. Weiterhin entwickelten sie ein Tool zur Annotation von RPE-Verläufen, wobei einzelne Stellgrößen des kreierten Algorithmus‘ automatisch an einen vorhandenen Datensatz angepasst und daraus eine visuelle Darstellung der Schädigungssituation ableitbar ist.

Stefan Kahl präsentierte die Ergebnisse dieser Arbeit auf dem „Forum Bildverarbeitung 2014“, einer internationalen Konferenz des Fraunhofer Instituts, das sich den Trends in der Bildverarbeitung im industrienahen Bereich widmet.

Publikation: Kahl, Stefan; Ritter, Marc & Eibl, Maximilian. Automatisierte Beurteilung der Schädigungssituation bei Patienten mit altersbedingter Makuladegeneration (AMD). In: Forum Bildverarbeitung, 27.11. – 28.11.2014, Regensburg, S. 179 – 190. – Karlsruhe : KIT Scientific Publishing, 2014 [Link]

 

Erfolgreiche Teilnahme beim TRECVID Instance Search

Im Rahmen einer Kooperation von Mitarbeitern der Stiftungsjuniorprofessur Media Computing und der Professur Medieninformatik der Technischen Universität Chemnitz ist es den Nachwuchswissenschaftlern unter Leitung von Jun.-Prof. Dr. Marc Ritter zwischen April und August 2014 gelungen, ein System zur Teilnahme an der wissenschaftlich renommierten Evaluationskampagne TREC Video Retrieval Evaluation (TRECVID) in der Kategorie Instance Search zu entwerfen und zu implementieren.

Die seit 2001 jährlich vom amerikanischen National Institute for Standards and Technologies (NIST) organisierten TRECVID Evaluationskampagnen befassen sich mit topaktuellen Forschungsproblemen, die im allgemeinen Kontext des Information Retrieval (IR) besonders auf inhaltsbasierte Suche und Nutzbarmachung digitaler Videos fokussiert. Das Ziel besteht darin, die Forschung auf diesen Themengebieten voranzutreiben, indem große Testkollektionen zusammen mit realistischen Aufgabenstellungen und einem einheitlichen Bewertungsverfahren veröffentlicht und ein Forum zum internationalen Vergleich der Ergebnisse gestellt wird.

Für die diesjährige Aufgabenstellung im Bereich Instance Search wurde ein Korpus von 464 Stunden Videomaterial der BBC Daily-Soap Eastenders zur Verfügung gestellt. Das Ziel bestand darin, bis zu 1.000 verschiedene Instanzen (Beispiele) von 30 verschiedenen Objekten, Personen oder Orten im Korpus aufzufinden. Wissenschaftlich interessant wird das Ganze bei genauerer Betrachtung der Struktur der Suchanfrage und der Trainingsdaten, die sich von üblichen Objektdetektionsverfahren deutlich abgrenzen, da hier statt Tausender an Trainingsbeispielen eine sehr geringe Anzahl von vier Beispielen vorliegt und kein zuvor erlerntes Objektmodell zur Anwendung gelangen darf. Darüber hinaus ist die Klasse des zu findenden Objekts oftmals nur grob definiert: Wird beispielsweise nach einer roten Plastikflasche gesucht, die Ketchup enthält, muss eine variable Objekterkennung sowohl bauchige als auch längliche Flaschen identifizieren können, wohingegen visuell sehr ähnlich beschaffene Glasflaschen mit Ketchup nicht erkannt werden dürfen.

Das achtköpfige Team von Nachwuchswissenschaftlern hat dabei vielfältige Ansätze und Lösungsstrategien verfolgt und intern evaluiert. Am erfolgversprechendsten erschien der Ansatz einer Gitter-Pyramide von MPEG-7 Deskriptoren, die auf ein bis fünf ausgewählten repräsentativen Bildern pro Kameraeinstellung berechnet wurden. Durch diesen dynamischen Ansatz war es möglich, die Anzahl der zu analysierenden Einzelbilder von fast 42 Millionen auf etwa 1,1 Millionen zu reduzieren. Weitere Verbesserungen ließen sich durch eine Analyse des Audio-Materials erzielen, so dass für verschiedene Szenen automatisiert eine Aussage getroffen werden konnte, ob es sich dabei um Innen- oder Außenszenen handelt. Verbliebene Fehldetektionen wurden unter Beachtung einer maximal 15 minütigen Nachlese händisch entfernt.

Die Ergebnisse wurden von Jun.-Prof. Dr. Marc Ritter vom 10.-12. November 2014 auf dem TRECVID Workshop an der University of Central Florida in Orlando, Florida, USA vorgestellt. Dabei konnten viele neue Erkenntnisse gewonnen werden, welche die zukünftigen Forschungen und Entwicklungen im Projekt localizeIT maßgeblich beeinflussen werden.

Publikation: Rit­ter, Marc ; Heinzig, Manuel ; Herms, Robert ; Kahl, Ste­fan ; Richter, Daniel ; Man­they, Robert & Eibl, Max­i­m­il­ian: Tech­nis­che Uni­ver­sität Chem­nitz at TRECVID Instance Search 2014. In: TRECVID Work­shop, 10.-12.11.2014, Orlando, Florida, USA, 8 S. [Link]

 
 
Projektgeber

Gef M BMBF

Gef M BMBF

LocalizeIt wird durch das Bundesministerium für Bildung und Forschung BMBF und die BMBF Innovationsinitiative Unternehmen Region von August 2014 bis Juli 2019 gefördert und durch den Projektträger PtJ betreut.

Projektnehmer

Logo TU trans cropp

Logo MI

Logo MC TRANS

localizeIT ist ein Projekt der
Stiftungsjuniorprofessur Media Computing und der Professur Medieninformatik der Technischen Universität Chemnitz

Forschungspartner

Intenta Logo

3D MicroMag Logo

IBS Logo

Kontakt

Dr. rer. nat. Danny Kowerko
Tech­ni­sche Uni­ver­si­tät Chem­nitz
Fakul­tät für Infor­ma­tik
Juniorpro­fes­sur Medi­a Computing
Straße der Natio­nen 62
09111 Chemnitz