2024-03-19 | Anmelden
 
 

Top-Scores bei der Geräusch-Klassifikation aus dem Themenfeld Ambient-Assisted Living (AAL)

Auf Basis der Vorar­beit­en zur Klas­si­fika­tion von Vogelgesän­gen basierend auf neu­ronalen Fal­tungsnet­zen (CNNs — Con­vo­lu­tion­al Neur­al Net­works) gelang es uns in einem eigens dafür aufge­baut­en Audio-Daten­satz einen Algo­rith­mus zu entwick­eln, der es erlaubt über 94 Klassen aus dem Bere­ich assistiertes Leben (AAL) automa­tisiert zu erken­nen. Dazu gehören die Kat­e­gorien Musik, Tiere, men­schliche Geräusche und heimische/Innenraumgeräusche. Die Güte der Klas­si­fika­tion ist mit über 82% Accu­ra­cy ver­gle­ich­bar mit den Spitzen­werten ander­er Bench­marks aus dem Bere­ich Geräusch/Audioklassifikation. Die Ergeb­nisse wur­den erfol­gre­ich bei Top-Lev­el A‑Konferenz ACM Mul­ti­me­dia ein­gere­icht und wer­den dort in diesem Herb­st in Niz­za im Rah­men eines Demon­stra­tors vorgestellt [1]. Das Demo-Video kann unter https://youtu.be/PpiL89t9_kY einge­se­hen werden.

[1]
A. Sam­path-Kumar, R. Erler, and D. Kow­erko, “A Real-Time Demo for Acoustic Event Clas­si­fi­ca­tion in Ambi­ent Assist­ed Liv­ing Con­texts (accept­ed),” pre­sent­ed at the ACM Mul­ti­me­dia 2019, 2019, pp. 1–5.
 

Abschlussmeeting zur InnoProfileTransfer-Initiative “LocalizeIT”

Am 05. Sep­tem­ber trifft sich die Inno­Profle­Trans­fer-Inti­ta­tive zum let­zten Mal mit Stiftern, beteiligten Wis­senschaftlern und Gästen in Chem­nitz. Ver­anstal­tungs­de­tails find­en Sie hier: https://www.tu-chemnitz.de/informatik/mc/events_current.php

Es wird Über­sichtsvorträge mit High­lights aus fünf Jahren Forschung zu den fünf Schw­er­punkt-The­menge­bi­eten von Local­izeIT geben. Wir zeigen wie Fragestel­lun­gen der Klas­si­fika­tion und Lokali­sa­tion von indus­triellen Prozessen, Objek­ten und Per­so­n­en im Raum gelöst wer­den mit klas­sis­ch­er Bild- und Audiover­ar­beitung aber auch mit mod­er­nen Meth­o­d­en aus dem Bere­ich kün­stlich­er Intel­li­genz. Hier wur­den vor allem mit sog. (tiefen) neu­ronalen Fal­tungsnet­zen (CNNs — Con­vo­lu­tion­al Neur­al Net­works) Erfolge erzielt, z.B. bei der Erken­nung von Vogel­stim­men [1] und Ambi­ent-assist­ed-liv­ing rel­e­van­ten Geräuschen [2], aber auch im Bere­ich der automa­tis­chen CNN-basierten Klas­si­fika­tion von laser­basierten Schnittprozessen von Hal­bleit­er-Wafern [3].

Die Vorträge wer­den weit­er­hin Ein­blicke geben in den Auf­bau mod­ern­er Clus­ter- und GPU-Rechen­tech­nik mit tech­nis­chen Lösun­gen zum verteil­ten Rech­nen, zum Massendaten­han­dling, sowie den Auf­bau und Ein­satz eines mod­er­nen Audio-Video-Labors.

[1] S. Kahl et al., “Large-Scale Bird Sound Clas­si­fi­ca­tion using Con­vo­lu­tion­al Neur­al Net­works,” in CEUR Work­shop Pro­ceed­ings (Work­ing Notes of CLEF 2017 — Con­fer­ence and Labs of the Eval­u­a­tion), 2017, vol. 1866.
[2] A. Sam­path-Kumar, R. Erler, and D. Kow­erko, “A Real-Time Demo for Acoustic Event Clas­si­fi­ca­tion in Ambi­ent Assist­ed Liv­ing Con­texts (sub­mit­ted),” pre­sent­ed at the ACM Mul­ti­me­dia 2019, 2019, pp. 1–5.
[3] T. Schloss­er, F. Beuth, M. Friedrich, and D. Kow­erko, “A Nov­el Visu­al Fault Detec­tion and Clas­si­fi­ca­tion Sys­tem for Semi­con­duc­tor Man­u­fac­tur­ing Using Stacked Hybrid Con­vo­lu­tion­al Neur­al Net­works,” pre­sent­ed at the 24th Inter­na­tion­al Con­fer­ence on Emerg­ing Tech­nolo­gies and Fac­to­ry Automa­tion, Zaragoza, 2019.
 

Birdnet App — die Vogelgesangserkennung für Android-Geräte

Vogelge­sangserken­nung basierend auf neu­ronalen Net­zen — das gibt es jet­zt auch als Anwen­dung für Android-Geräte im Android App Store. Erkan­nt wer­den die 500 häu­fig­sten Voge­larten aus Nord Ameri­ka und Deutsch­land. Die App wurde inzwis­chen mehr als 100.000mal herun­terge­laden und hat dabei eine über 4 Sterne Bew­er­tung erzielt. Den wis­senschaftlichen Hin­ter­grund find­en Sie in den Pub­lika­tion von Ste­fan Kahl in der Rubrik Pub­lika­tio­nen oder in der Local­ize-IT Pro­jekt-Lit­er­aturver­wal­tung Zotero. Die Ver­ar­beitung erfol­gt teil­weise auf unser­er im Pro­jekt beschafften GPU-Work­sta­tion. Diese App ist eine Zusam­me­nar­beit des Cor­nell Lab of Ornithol­o­gy und der Tech­nis­chen Uni­ver­sität Chem­nitz. Ein weit­er­führen­der Artikel find­et sich hier.

 

LocalizeIT-Workshops und Call for Papers

Die Mitar­beit­er der Ini­tia­tive organ­sieren zwei Work­shops Anfang 2019, um Ihre Forschung zu präsen­tieren, aber auch um Gäste aus ähn­lichen Forschungs­ge­bi­eten zum Diskurs einzu­laden. Als Schw­er­punk­te bei­der Ver­anstal­tun­gen wer­den maschinelle Lern­ver­fahren ins­beson­dere Deep Learn­ing Meth­o­d­en im Vorder­grund ste­hen und das natür­lich im Anwen­dungs­feld der Lokalisierung von und in audio­vi­suellen Medi­en. Das umfasst The­menge­bi­et wie Objekt- und Per­son­en­erken­nung und Ver­hal­tens­analyse im Raum, basierend auf Audio- und (Mul­ti­sen­sor-) Videoaufnahmen.

Zunächst begin­nen wir mit einem Dok­toran­den-Work­shop vom 05.–07.02.2019 der Medi­en­in­for­matik­er der TU Chem­nitz und Hochschule Mit­twei­da, das im Tagungszen­trum der IBS gGmbH in Laubusch stat­tfind­en wird. Weit­ere Details find­en sich hier.

Im März 2019 find­et dann am Woch­enende vom 16./17.03. unser nationaler wis­senschaftlich­er Local­izeIT-Work­shop im Rah­men der Chem­nitzer Lin­ux-Tage statt. Beson­ders gefragt sind Beiträge, die natür­liche und sog. kün­stliche Intel­li­genz gegenüber­stellen oder kom­binieren. Weit­er­führende Infor­ma­tio­nen find­en sich auf unseren Stiftungsju­nior­pro­fes­sur­web­seite.

 

 

Stellenausschreibung — freie Stellen

Aktuell sind im Pro­jekt Stellen als wis­senschaftliche Mitar­beit­er zu besetzen:

https://www.tu-chemnitz.de/verwaltung/personal/stellen/257080_14_Si.php

https://www.tu-chemnitz.de/verwaltung/personal/stellen/257080_13_Si.php

Weit­er­hin sind in ver­gle­ich­baren The­men Stellen als wis­senschaftliche Hil­fkraft verfügbar.

 

Spitzenplatz bei Wettbewerb zur Klassifikation von Vogelgesängen

Oben: North­ern Car­di­nal (Foto von Andy Morf­few) Unten: Spek­tro­gramm des Gesangs

Beim inter­na­tion­al renom­mierten wis­senschaftlichen Wet­tbe­werb Image­CLEF bestand die Her­aus­forderung in der Sek­tion Life­Clef in Jahr 2017 unter anderem in der Klas­si­fika­tion von 1500 Voge­larten anhand ihres Gesangs in über 12.000 Audio-Auf­nah­men (Bird­CLEF 2017). Unter den ca. 100 Anmel­dun­gen wur­den schlussendlich von fünf inter­na­tionalen Forschungs­grup­pen Ergeb­nisse ein­gere­icht. ESF-Pro­mo­tion­sstu­dent Ste­fan Kahl von der Stiftungsju­nior­pro­fes­sur Media Com­put­ing an der Fakultät für Infor­matik der TU Chem­nitz erar­beit­ete in Koop­er­a­tion mit Prof. Dr. Hol­ger Klinck von der Cor­nell Uni­ver­si­ty (Cor­nell Lab of Ornithol­o­gy, CLO) und Prof. Rit­ter von der Hochschule Mit­twei­da (FB Medi­en­in­for­matik) ein Konzept, das die Audiosig­nale von mehr als 36.000 Train­ings-Sam­ples in Bilder kon­vertiert um damit ein kün­stlich­es neu­ronales Netz zu trainieren, welch­es möglichst gut auf Vogelge­sang adap­tiert. Mit diesem Ansatz kon­nte eine Genauigkeit von fast 70% erre­icht wer­den, was den 2. Platz hauchdünn hin­ter der Spitzen­po­si­tio­nen im Wet­tbe­werb bedeutet. Die Ergeb­nisse wur­den auf der Image­CLEF Kon­ferenz in Dublin mit einem entsprechen­den wis­senschaftlichen Beitrag präsentiert.

In den fol­gen­den Monat­en soll gemein­sam mit dem CLO ein mobiles Mon­i­tor­ing-Sys­tem entste­hen, das die Erken­nung von 650 Voge­larten der USA in Echtzeit ermöglicht. Ziel ist die flächen­deck­ende Überwachung von Migra­tion und Bestand zur Erhal­tung der Bio­di­ver­sität gefährde­ter Regio­nen. Ein erster Pro­to­typ ist bere­its jet­zt auf einem Rasp­ber­ry Pi lauf­fähig und soll im Mai 2018 mit Beginn der Brutzeit im Nord-Osten der USA zum Ein­satz kom­men. Der aktuelle Stand ist unter der Live Demo und Android App ist auf der Web­seite des Cor­nell Lab of Ornithol­o­gy zu sehen: https://birdnet.cornell.edu/

Weit­er­führende Infor­ma­tio­nen sind fol­gen­den medi­alen Nen­nun­gen zu entnehmen:

Radiobeitrag im Deutsch­landra­dio: http://ondemand-mp3.dradio.de/file/dradio/2018/04/11/birdnet_mit_kuenstlicher_intelligenz_vogelarten_dlf_20180411_1645_0f30779c.mp3

 

Best Paper Award bei der International Summerschool on Computer Science, Computer Engineering and Educational Technology (ISCET) 2017

Screen­shot der grafis­chen Nutze­r­ober­fläche der Curve­fit-Weban­wen­dung im Kon­text eines physikalis­chen Praktikumsversuchs

Bei der 6. Auflage der ISCET, welche dieses Jahr im Infor­matik-Begeg­nungszen­trum Laubusch stat­tfand, wurde von den mehr als 30 Sum­mer School-Teil­nehmern der Beitrag A web-based appli­ca­tion  for data visu­al­i­sa­tion and non-lin­ear regres­sion analy­sis includ­ing error cal­cu­la­tion for lab­o­ra­to­ry class­es in nat­ur­al and life sci­ences auf den 1. Platz gewählt. Dabei wurde sowohl Qual­ität des Vor­trags als auch der schriftlichen Pub­lika­tion im Tagungs­band bew­ertet. Bei der ISCET Sum­mer School tre­f­fen sich junge Forsch­er der TU Chem­nitz und inter­na­tionaler Uni­ver­sitäten aus Mon­golei, Litauen, Rus­s­land, Chi­na und Pak­istan zum wis­senschaftlichen, aber auch kul­turellen Aus­tausch. Teil des Konzepts ist es Studierende bere­its frühzeit­ig her­anzuführen ihre Forschung in ein­er schriftlichen Arbeit für den ISCET-Tagungs­band zu schreiben und diese dann zur Sum­mer School zu präsen­tieren und Anknüp­fungspunk­te für Koop­er­a­tionspro­jek­te suchen. 

Ein Schw­er­punkt beste­ht in sog. Bil­dung­stech­nolo­gien. Die von Titus Keller im Rah­men seines Forschung­sprak­tikums ent­standene Web­browser­an­wen­dung, die unter curvefit.tu-chemnitz.de erre­ich­bar ist, wurde dabei in den Kon­text der Durch­führung physikalis­ch­er Prak­tikumsver­suche gestellt. Dort kön­nten exper­i­mentell ermit­telte Dat­en in Zukun­ft direkt dig­i­tal erfasst, gespe­ichert, vorver­ar­beit­et, graphisch visu­alis­ert und mit­tels Regres­sion­s­analyse aus­gew­ertet und per URL-Export als Gesamt­pro­jekt geteilt wer­den. Das erlaubt dem Betreuer in bei der Bew­er­tung des zu erstel­len­den Pro­tokolls bessere Nachvol­lziehbarkeit, da jed­er Berech­nungss­chritt trans­par­ent doku­men­tiert ist. Auch Größt­fehler­a­b­schätzung inkl. Fehler­fortpflanzung sind inner­halb der graphis­chen Ober­fläche abbild­bar. Per­spek­tivisch lassen sich über den ein­fachen Weblink-basierten Export ver­suchsspez­i­fis­che Muster-Pro­jek­te in ein­er Daten­bank hin­ter­legen.  Damit wird die Weban­wen­dung für eine bre­ite Com­mu­ni­ty an Forsch­ern inter­es­sant, da sich ein­er­seits fach­spez­i­fis­che Formeln und Fol­ge­berech­nun­gen durch­führen und und per Link teilen ließen, wie es Nutzer von Cloud­spe­ich­ern gewohnt sind. Wert wurde darauf gelegt möglichst mit Open-Source-basierten Lösun­gen zu arbeit­en, die in Forschung und Lehre frei einge­set­zt wer­den kön­nen. Rechen­zen­tren kön­nten das Webtool dann kün­ftig zen­tral hosten und für Studierende und Mitar­beit­er instal­la­tions- und kosten­frei nutzbar machen.

 

Offene Stellen im Projekt und der Stiftungsjuniorprofessur

Lei­der wird uns auch der Kol­lege Dr. Hus­sein Hus­sein ver­lassen Rich­tung FU Berlin. Inter­essierte find­en Deti­ails zur Stel­lenauss­chrei­bung hier:

https://www.tu-chemnitz.de/verwaltung/personal/stellen/257090_1_Si.php

 

 

Fertigstellung des audiovisuellen Media Computing Labors

Anfang des Jahres erhielt das audio­vi­suelle Labor der Junior­pro­fes­sur Media Com­put­ing seinen let­zten Schliff. Der Büh­nenkä­fig ist aus­ges­tat­tet mit 16 Laut­sprech­ern, 64 Mikro­fo­nen und 10 Stereokam­eras (Smart Sen­sors), die eine Vielzahl an Objek­ten und Geräuschen aufze­ich­nen und lokalisieren kön­nen. Die ermit­tel­ten Dat­en wer­den von einem “Stor­age Sys­tem” mit 64 Ter­abyte Spe­icherka­paz­ität gesichert und ver­ar­beit­et. Zwei (MIDI-) Key­boards sor­gen für die Gener­ierung von Ton­se­quen­zen für unter­schiedliche Instru­mente, welche in der Erforschung der akustis­chen Lokalisierung ihren Ein­satz find­en sollen.

Am 01.02.2017 wurde das Labor in Betrieb genom­men und für Forschun­gen zur Objekt- und akustis­chen Lokalisierung genutzt. Weit­er Infor­ma­tio­nen find­en sich unter tech­nis­che Ausstat­tung des MC-Labors und wer­den auf der Inter­na­tion­al Sum­mer School on Com­put­er sci­ence, Com­put­er Engi­neer­ing and Edu­ca­tion Tech­nol­o­gy in Laubusch vom 03.–07.07.2017 vorgestellt.

 

TrecVid Instance Search 2016

Webin­ter­face für Anno­ta­tion [Quelle: S. Kahl: Präsen­ta­tion TUC at TrecVid 2016

Auch in diesem Jahr beteiligte sich die Junior­pro­fes­sur Media Com­put­ing am alljährlichen TrecVid Instance Search Wet­tbe­werb. Die inter­na­tionale wis­senschaftliche Eval­u­a­tion­skam­pagne TRECVID ist eine etabilierte Serie von Work­shops, die sich auf die inhalts­basierte Infor­ma­tion­s­gewin­nung und Auswer­tung dig­i­taler Videos konzen­tri­ert. Jedes Jahr stellen sich Teil­nehmer ein­er neuen real­ität­sna­hen Auf­gabe, die Forsch­er divers­er inter­na­tionaler Insti­tute in einem Wet­tbe­werb ver­suchen best­möglich zu lösen. Die TRECVID-erfahre­nen Forsch­er der Junior­pro­fes­sur Media Com­put­ing und der Pro­fes­sur Medi­en­in­for­matik der Tech­nis­chen Uni­ver­sität Chem­nitz nah­men nun­mehr zum drit­ten Mal teil, dieses Jahr in den Kat­e­gorien “Instance Search Auto­mat­ic Run” (AR) und “Instance Search Inter­ac­tive Run” (IR).

Ziel war die Verbesserung der Vor­jahres-Ergeb­nisse unter Nutzung von Open Source Tools auf Con­sumer Hard­ware. Dabei soll­ten vor allem speziell entwick­elte Anno­ta­tion­swerkzeuge zur kol­lab­o­ra­tiv­en Nutzung über ein Webin­ter­face zum Ein­satz kom­men mit denen mehr Ground-Truth Dat­en pro Zeit­ein­heit erzeugt wer­den kön­nen. Außer­dem wur­den Zeit­en erfasst um u.a. die effizien­testen Nutzer für den inter­ak­tiv­en Run zu bes­tim­men. Dat­en-Grund­lage des Wet­tbe­werbs war auch dieses Mal wieder die britis­che TV-Serie “Eas­t­en­ders”. Im Wet­tbe­werb galt es bes­timmte Rollen der Serie an einem definierten Ort automa­tisiert zu ermit­teln.  Dazu erfol­gte im ersten Schritt nach der Extrak­tion der sog. Keyframes deren Anno­ta­tion durch Markieren von Per­so­n­en mit Bound­ing Box­en (mit­tels Rechteck­en, siehe Abbil­dung) und Meta­da­te­nan­re­icherung mit Ortsin­for­ma­tio­nen. Zur Per­so­n­en- und Ort­sklas­si­fika­tion wur­den dann im zweit­en Schritt neu­ronale Net­ze (CNNs — Con­vo­lu­tion­al Neur­al Net­works) trainiert. Da aufeinan­der­fol­gende Bilder am sel­ben Ort mit großer Wahrschein­lichkeit zu ein­er Szene (Shot) gehören, wur­den Ähn­lichkeitsmetriken angwandt, um Bilder einem Shot und damit ein­er Grup­pen­num­mer zuzuord­nen. Schritt drei bein­hal­tete ein Re-Rank­ing der Ergeb­nisse der CNNs durch Mit­telung der CNN-Kon­fi­den­zw­erte aller Bilder ein­er Gruppe. Schließlich fol­gte im inter­ak­tiv­en Run die manuelle Eval­u­a­tion der Ergeb­nisse mit Hil­fe des Webin­ter­faces durch den zeit­ef­fizien­testen Annotator.

Die Forsch­er erziel­ten mit ihrer Meth­ode eine durch­schnit­tliche Tre­f­fer­quote von 31,8% im Inter­ac­tive Run und 14,4% im Auto­mat­ic Run, wobei die Top 10 Präzi­sion 90,5% (IR) und 49,7% (AR) betrug. Damit erre­ichte die TU Chem­nitz den 2. Platz im Inter­ac­tive Run und den 5. Platz im Auto­mat­ic Run.

 

 
 
Projektgeber

Gef M BMBF

Gef M BMBF

LocalizeIt wird durch das Bundesministerium für Bildung und Forschung BMBF und die BMBF Innovationsinitiative Unternehmen Region von August 2014 bis Juli 2019 gefördert und durch den Projektträger PtJ betreut.

Projektnehmer

Logo TU trans cropp

Logo MI

Logo MC TRANS

localizeIT ist ein Projekt der
Stiftungsjuniorprofessur Media Computing und der Professur Medieninformatik der Technischen Universität Chemnitz

Forschungspartner

Intenta Logo

3D MicroMag Logo

IBS Logo

Kontakt

Dr. rer. nat. Danny Kowerko
Tech­ni­sche Uni­ver­si­tät Chem­nitz
Fakul­tät für Infor­ma­tik
Juniorpro­fes­sur Medi­a Computing
Straße der Natio­nen 62
09111 Chemnitz