2018-11-14 | Anmelden
 
 

Publikation

TrecVid Instance Search 2016

Webin­ter­face für Anno­ta­tion [Quelle: S. Kahl: Präsen­ta­tion TUC at TrecVid 2016

Auch in diesem Jahr beteiligte sich die Junior­pro­fes­sur Media Com­put­ing am alljährlichen TrecVid Instance Search Wet­tbe­werb. Die inter­na­tionale wis­senschaftliche Eval­u­a­tion­skam­pagne TRECVID ist eine etabilierte Serie von Work­shops, die sich auf die inhalts­basierte Infor­ma­tion­s­gewin­nung und Auswer­tung dig­i­taler Videos konzen­tri­ert. Jedes Jahr stellen sich Teil­nehmer ein­er neuen real­ität­sna­hen Auf­gabe, die Forsch­er divers­er inter­na­tionaler Insti­tute in einem Wet­tbe­werb ver­suchen best­möglich zu lösen. Die TRECVID-erfahre­nen Forsch­er der Junior­pro­fes­sur Media Com­put­ing und der Pro­fes­sur Medi­en­in­for­matik der Tech­nis­chen Uni­ver­sität Chem­nitz nah­men nun­mehr zum drit­ten Mal teil, dieses Jahr in den Kat­e­gorien “Instance Search Auto­mat­ic Run” (AR) und “Instance Search Inter­ac­tive Run” (IR).

Ziel war die Verbesserung der Vor­jahres-Ergeb­nisse unter Nutzung von Open Source Tools auf Con­sumer Hard­ware. Dabei soll­ten vor allem speziell entwick­elte Anno­ta­tion­swerkzeuge zur kol­lab­o­ra­tiv­en Nutzung über ein Webin­ter­face zum Ein­satz kom­men mit denen mehr Ground-Truth Dat­en pro Zeit­ein­heit erzeugt wer­den kön­nen. Außer­dem wur­den Zeit­en erfasst um u.a. die effizien­testen Nutzer für den inter­ak­tiv­en Run zu bes­tim­men. Dat­en-Grund­lage des Wet­tbe­werbs war auch dieses Mal wieder die britis­che TV-Serie “Eas­t­en­ders”. Im Wet­tbe­werb galt es bes­timmte Rollen der Serie an einem definierten Ort automa­tisiert zu ermit­teln.  Dazu erfol­gte im ersten Schritt nach der Extrak­tion der sog. Keyframes deren Anno­ta­tion durch Markieren von Per­so­n­en mit Bound­ing Box­en (mit­tels Rechteck­en, siehe Abbil­dung) und Meta­da­te­nan­re­icherung mit Ortsin­for­ma­tio­nen. Zur Per­so­n­en- und Ort­sklas­si­fika­tion wur­den dann im zweit­en Schritt neu­ronale Net­ze (CNNs — Con­vo­lu­tion­al Neur­al Net­works) trainiert. Da aufeinan­der­fol­gende Bilder am sel­ben Ort mit großer Wahrschein­lichkeit zu ein­er Szene (Shot) gehören, wur­den Ähn­lichkeitsmetriken angwandt, um Bilder einem Shot und damit ein­er Grup­pen­num­mer zuzuord­nen. Schritt drei bein­hal­tete ein Re-Rank­ing der Ergeb­nisse der CNNs durch Mit­telung der CNN-Kon­fi­den­zw­erte aller Bilder ein­er Gruppe. Schließlich fol­gte im inter­ak­tiv­en Run die manuelle Eval­u­a­tion der Ergeb­nisse mit Hil­fe des Webin­ter­faces durch den zeit­ef­fizien­testen Anno­ta­tor.

Die Forsch­er erziel­ten mit ihrer Meth­ode eine durch­schnit­tliche Tre­f­fer­quote von 31,8% im Inter­ac­tive Run und 14,4% im Auto­mat­ic Run, wobei die Top 10 Präzi­sion 90,5% (IR) und 49,7% (AR) betrug. Damit erre­ichte die TU Chem­nitz den 2. Platz im Inter­ac­tive Run und den 5. Platz im Auto­mat­ic Run.

 

 

Kontexterkennung auf mobilen Endgeräten mittels Sensorfusion

Im Rah­men sein­er Pro­mo­tion betreibt Maik Ben­ndorf, von der Hochschule Mit­twei­da, weit­er­führende Forschung im Bere­ich der Kon­tex­terken­nung auf Smart­phones. Ein mod­ernes Smart­phone hat heute bis zu 40 einge­baute Sen­soren. In sein­er Arbeit möchte Maik Ben­ndorf aus den Dat­en dieser Sen­soren Rückschlüsse auf die Sit­u­a­tion des Nutzers ziehen. Anwen­dung find­et die Kon­tex­terken­nung in soge­nan­nten kon­textsen­si­tiv­en Anwen­dun­gen. Eine solche Anwen­dung kann das Smart­phone während eines Meet­ings z. B. in ein laut­los­es Pro­fil stellen.

Eben­falls auf Sen­sor­dat­en beruht ein Ver­fahren zur Posi­tions­bes­tim­mung, das „Dead Reck­on­ing“ (dt. Kop­pel­nav­i­ga­tion) genan­nt wird. Dieses Ver­fahren ist bere­its seit der frühen Seefahrt bekan­nt und wird genutzt, um von einem bekan­nten Punkt aus­ge­hend die aktuelle Posi­tion zu bes­tim­men. Während dazu früher Kom­pass und Fahrten­mess­er zum Ein­satz kamen, wer­den heute Bewe­gungssen­soren wie z.B. der Beschle­u­ni­gungssen­sor oder das Gyroskop einge­set­zt. Während seines Forschungsaufen­thalts am Cor­nell Lab of Ornithol­o­gy (USA) beschäftigte sich Maik Ben­ndorf mit dieser Art der Posi­tions­bes­tim­mung. Dabei soll das Ergeb­nis sein­er Arbeit einge­set­zt wer­den, um die Bewe­gun­gen von Tieren in freier Wild­bahn zu überwachen. Hierzu wird das Tier mit einem Hals­band verse­hen, welch­es die Sen­soren bein­hal­tet und fortwährend Dat­en aufze­ich­net. Anhand dieser Dat­en lässt sich so die zurück­gelegte Strecke des überwacht­en Tieres nachvol­lziehen. Bleibt die Frage, warum dazu kein GPS Sys­tem einge­set­zt wird? Ein großer Nachteil dieses Sys­tems ist der Energie­ver­brauch, wodurch es für solche Langzeit­stu­di­en recht ungeeignet ist.

Daneben kann Dead Reck­on­ing auch zur Nav­i­ga­tion in Gebäu­den einge­set­zt wer­den, da die GPS-Sig­nale hier in der Regel nicht bzw. nur eingeschränkt nutzbar sind. Smart­phones ver­fü­gen stan­dard­mäßig über alle dafür notwendi­gen Sen­soren. Maik Ben­ndorfs Pro­mo­tions mit dem Titel „Unter­suchung und Opti­mierung der Kon­tex­terken­nung auf mobilen Endgeräten mit­tels Sen­sor­fu­sion“ wird vom ehe­ma­li­gen local­izeIT Pro­jek­tleit­er Prof. Dr. Marc Rit­ter und Prof. Thomas Haensel­mann von der Hochschule Mit­twei­da betreut.

 

Optimierte Analyse von Laserschweißprozessen durch modellbasierte Bildverarbeitung

Standbild des Laserschweißprozesses mit modellierter Ellipse [aus: Kowerko, Danny; Ritter, Marc; Manthey, Robert; John, Björn & Grimm, Michael: Quanti?zierung der geometrischen Eigenschaften von Schmelzzonen bei Laserschweißprozessen]

Stand­bild des Laser­schweißprozess­es mit mod­el­liert­er Ellipse [aus: Kow­erko, Dan­ny; Rit­ter, Marc; Man­they, Robert; John, Björn & Grimm, Michael: Quanti?zierung der geometrischen Eigen­schaften von Schmelz­zo­nen bei Laser­schweißprozessen]

In Zusam­me­nar­beit mit der 3D Micro­mac AG fan­den Mitar­beit­er der Junior­pro­fes­sur Media Com­put­ing eine Möglichkeit die qual­i­ta­tive Analyse von Laser­schweißprozessen zu opti­mieren. Dies gelang durch die Kom­bi­na­tion von mod­ell­basiert­er Bild­ver­ar­beitung mit neuer Kam­er­at­e­ch­nolo­gie, die Auf­nah­men mit 2.000 Bildern pro Sekunde bei ein­er Auflö­sung von 1024 ×768 Pix­eln erlaubt. Die Ergeb­nisse dieser Arbeit stellen die Forsch­er vom 1.- 2. Dezem­ber 2016 auf dem Forum Bild­ver­ar­beitung in Karl­sruhe vor.

Die 3D Micro­mac AG ist ein Spezial­ist auf dem Gebi­et der Laser­mikrobear­beitung und somit abhängig von präzisen Analy­sen ihrer Prozesse. Im Mikrom­e­ter­bere­ich sind Hochgeschwindigkeit­sauf­nah­men der Schmelz­zone meist die einzige Möglichkeit für die Qual­ität­sein­schätzung. Ein mehrstu­figes OpenCV-basiertes Bild­ver­ar­beitungsver­fahren mod­el­lierte dabei mit Hil­fe ein­er Ellipse die Schmelz­zone während des Laser­schweißprozess­es. Die Para­me­ter dieser Ellipse wur­den dann als Funk­tion der Zeit durch lin­eare Regres­sion approx­imiert, was Rückschlüsse auf die Auswirkun­gen ver­schieden­er Fak­toren, wie z.B. Laser-, Werk­stoff- und Werkzeug­pa­ra­me­ter auf das Fügeergeb­nis ermöglicht. Die Arbeit zeigte beispiel­sweise einen lin­earen Zusam­men­hang zwis­chen der Schmelz­zo­nen­fläche und der Laser­leis­tung. Der­ar­tige Ableitun­gen von Geset­zmäßigkeit­en sind erweit­er­bar auf andere Gerätepa­ra­me­ter und erlauben kün­ftig eine com­put­ergestützte Opti­mierung dieser Para­me­ter in Bezug auf die gewün­schte Schmelz­zo­nen­ge­ome­trie. Weit­er­hin soll es möglich sein neue tech­nis­che Ver­fahren wie das Pulsen des Inert­gasstromes durch Charak­ter­isierung der Schmelz­zo­nen­dy­namik und Lokalisierung unge­woll­ter Arte­fak­te (z.B. Spritzer) zu evaluieren.

Pub­lika­tion: Kow­erko, Dan­ny; Rit­ter, Marc; Man­they, Robert; John, Björn & Grimm, Michael: Quan­tifizierung der geometrischen Eigen­schaften von Schmelz­zo­nen bei Laser­schweißprozessen

 

Datenreduktion mit geringem Datenverlust in der Videobilderkennung

Überblick von Ähnlichkeitsmaßen bewertet von Mensch und Maschine [aus: Ritter et al: Simplifying Accessibility Without Data Loss: An Exploratory Study on Object Preserving Keyframe Culling, S.9]

Überblick von Ähn­lichkeits­maßen bew­ertet von Men­sch und Mas­chine [aus: Rit­ter et al: Sim­pli­fy­ing Acces­si­bil­i­ty With­out Data Loss: An Explorato­ry Study on Object Pre­serv­ing Keyframe Culling, S.9]

In Zusam­me­nar­beit mit Prof. Dr. Dr. Gisela Susanne Bahr vom Flori­da Insti­tute of Tech­nol­o­gy führte die Stiftung­spro­fes­sur Media Com­put­ing unter der Leitung von Jun.-Prof. Dr. Marc Rit­ter eine explo­rative Studie im Bere­ich der Bilderken­nung in Video­ma­te­r­i­al durch. Ins­beson­dere geht es um die Reduzierung von Video-Keyframes unter Erhal­tung aller rel­e­van­ten Objek­tin­stanzen, welche im Rah­men des TrecVid Instance Search Wet­tbe­werbs 2015 [Link] aus­gewählt wur­den und in vier Stun­den Video­ma­te­r­i­al der BBC Serie “East Enders” erkan­nt wer­den soll­ten.

Bei der Analyse von Video­ma­te­r­i­al erfol­gt zunächst eine Auswahl von einzel­nen Keyframes, die repräsen­ta­tiv für die jew­eilige Szene ste­hen. Um redun­dante Bilder­in­halte zu ver­mei­den ist die Anzahl der aus­gewählten Keyframes pro Szene so ger­ing wie möglich zu hal­ten, was durch eine fehlende Trainigsmöglichkeit des Algo­rith­mus’ erschw­ert wird. Im Gegen­satz zu anderen Forsch­ern, die eine starre Anzahl von Keyframes auswählen (z.B. ein Keyframe pro Sekunde), entsch­ieden sich die Forsch­er für eine Auswahl­meth­ode, die sich an der Länge der Szene ori­en­tiert, da sich Objek­t­po­si­tio­nen inner­halb län­ger­er Szenen verän­dern kön­nen. In ihrer Studie sortierten die Forsch­er dann manuell die übri­gen Dup­likate aus und ver­sucht­en die ange­wandten Auswahlkri­te­rien objek­tiv zu evaluieren und mit com­put­ergestützten Maßen maschinell nachzustellen. Dabei erre­icht­en sie eine Reduzierung der repräsen­ta­tiv­en Keyframes um 84% bei Erhalt von 82% aller Instanzen der auftre­tenden Objek­tk­lassen.

Die Vorstel­lung der Ergeb­nisse der Studie erfol­gt im Juli diesen Jahres auf der Con­fer­ence on Human-Com­put­er Inter­ac­tion Inter­na­tion­al (HCII) in Toron­to, Kana­da.

Pub­lika­tion: Rit­ter, Marc; Kow­erko, Dan­ny; Hus­sein, Hus­sein; Heinzig, Manuel; Schloss­er, Tobias; Man­they, Robert & Bahr, Gisela Susanne: Sim­pli­fy­ing Acces­si­bil­i­ty With­out Dat­aloss: An Explorato­ry Study on Object Pre­serv­ing Keyframe Cul­li­ung. In: Uni­ver­sal Access in Human-Com­put­er Inter­ac­tion. Part of Human Com­put­er Inter­ac­tion Inter­na­tion­al (HCII) 2016, At Toron­to, Cana­da, Vol­ume: LNCS, 12 S. [Link]

 

Klassifizierung akustischer Ereignisse zur Unterstützung im Pflegebereich

Mitar­beit­er der Junior­pro­fes­sur Media Com­put­ing und der Inten­ta GmbH reicht­en eine Forschungsar­beit zum The­ma der Klas­si­fizierung von Audio­ereignis­sen, wie Sprache und für den Pflege­bere­ich typ­is­che Geräusche, auf der Kon­ferenz für Elek­tro­n­is­che Sprachsig­nalver­ar­beitung (ESSV) in Leipzig von 2. bis 4. März 2016 ein.

Frequenzspektren von Sprach- sowie nicht-Sprachereignissen [aus: Hussein et al: Acoustic Event Classification for Ambient Assisted Living and Health Environments]

Fre­quen­zspek­tren von Sprach- sowie nicht-Sprachereignis­sen [aus: Hus­sein et al: Acoustic Event Clas­si­fi­ca­tion for Ambi­ent Assist­ed Liv­ing and Health Envi­ron­ments]

Im Rah­men der Forschung zeich­neten die Forsch­er typ­is­che Sprach- sowie nicht-Sprach­se­quen­zen, wie Schreie, brechende Scheiben, Möbelver­rück­en, etc. mit 58 Proban­den auf und annotierten diese manuell. Die Extrahierung der Sprach­merk­male, unterteilt in zeitab­hängige und fre­quen­z­ab­hängige Merk­male, ergab, dass Sprachereignisse auf­grund ihrer spek­tralen Struk­turen bess­er klas­si­fiziert wer­den kön­nen als nicht-Sprachereignisse. Anschließend nutzten die Forsch­er vielver­sprechende Klas­si­fika­toren zur Ein­teilung der akustis­chen Ereignisse in ver­schiedene Klassen. Die besten Ergeb­nisse erre­ichte dabei der Klas­si­fika­tor SMO (engl.: sequen­tial min­i­mal opti­miza­tion) mit 92,5%.

Pub­lika­tion: Hus­sein, Hus­sein; Rit­ter, Marc; Man­they, Robert & Heinzig, Manuel: Acoustic Event Clas­si­fi­ca­tion for Ambi­ent Assist­ed Liv­ing and Health­care Envi­ron­ments. In: Kon­feren­z­pa­per auf der 27. Kon­ferenz Elek­tro­n­is­che Sprachsig­nalver­ar­beitung 2016, Leipzig. [Link]

 

Erneute Teilnahme am TRECVID Instance Search 2015 — Mit neuen Methoden näher ans Ziel

Die inter­na­tionale wis­senschaftliche Eval­u­a­tion­skam­pagne TRECVID ist eine etabilierte Serie von Work­shops, die sich auf die inhalts­basierte Infor­ma­tion­s­gewin­nung und Auswer­tung und dig­i­taler Videos konzen­tri­ert. Jedes Jahr stellen sich Teil­nehmer ein­er neuen real­ität­sna­hen Auf­gabe, die Forsch­er divers­er inter­na­tionaler Insti­tute in ein­er Art Wet­tbe­werb lösen. Die TRECVID-erfahre­nen Forsch­er der Junior­pro­fes­sur Media Com­put­ing und der Pro­fes­sur Medi­en­in­for­matik der Tech­nis­chen Uni­ver­sität Chem­nitz nah­men gemein­sam mit Prof. Dr. Dr. Gisela Susanne Bahr vom Flori­da Insti­tute of Tech­nol­o­gy (FIT) zum zweit­en Mal teil und waren dieses Jahr auch im Bere­ich der “Deep Learn­ing Strate­gies” aktiv.

Zudem wur­den neue Meth­o­d­en bzw. deren Verknüp­fun­gen im Task Instance Search angewen­det, um die geforderten Bild­in­halte in vier Durchgän­gen, davon ein inter­ak­tiv­er und drei automa­tis­che, kor­rekt zu erken­nen. So wur­den die Meth­o­d­en CNN (Con­vo­lu­tion­al Neur­al Net­work), die eine Art kün­stlich­es neu­rales Net­zw­erk erstellen, bei dem die “Neu­ro­nen” auf sich über­lap­pende Bere­iche reagieren, und SIFT (Scale Invari­ant Fea­ture Trans­form), bei dem die Merk­mals­beschrei­bun­gen invari­ant gegenüber z.B. Rota­tion, Skalierung, Beleuch­tungsvari­a­tion etc. sind, mit einem vor­angestell­ten Sequence Clus­ter­ing (SC) kom­biniert. Die Forsch­er stell­ten fest, dass die Meth­o­d­en CNN und SIFT in mehr als der Hälfte der Fälle der geforderten Suchan­fra­gen erfol­gre­ich waren, wobei SIFT beson­ders gut bei struk­turi­erten Objek­ten mit schar­fen Kan­ten funk­tion­ierte. Zusät­zlich erzielte das Sequence Clus­ter­ing (SC) als Vorver­ar­beitung­sprozess eine merk­liche Verbesserung der Detek­tion­sergeb­nisse, sodass die Forsch­er ins­ge­samt mehrere ver­schiedene Poten­tiale zur Opti­mierung der Objek­terken­nung aufdeck­ten.

Die Ergeb­nisse wur­den vom 16.–18. Novem­ber 2015 beim Nation­al Insti­tute of Stan­dards and Tech­nol­o­gy, Mary­land, USA von Junior­pro­fes­sor Dr. Marc Rit­ter präsen­tiert.

Pub­lika­tion: Rit­ter, Marc; Rick­ert, Markus; Jutu­ru Chenchu, Lokesh; Kahl, Ste­fan; Herms, Robert; Hus­sein, Hus­sein; Heinzig, Manuel, Man­they, Robert; Richter, Daniel; Bahr, Gisela Susanne & Eibl, Max­i­m­il­ian: Tech­nis­che Uni­ver­sität Chem­nitz at TRECVID Instance Search 2015. In: TRECVID Work­shop, 16.–18.11.2015, Gaithers­burg, Mary­land, USA, 12 S. [Link@RG][Link@NIST]

 

 

Automatische Sprachmodelladaption für klinische Spracherkennung

Robert Herms und Prof. Dr. Max­i­m­il­ian Eibl von der Pro­fes­sur Medi­en­in­for­matik entwick­el­ten gemein­sam mit Daniel Richter und Jun.-Prof. Dr. Marc Rit­ter von der Junior­pro­fes­sur Media Com­put­ing eine Meth­ode zu klin­is­chen Spracherken­nung und nah­men damit am CLEF (Con­fer­ence and Labs of the Eval­u­a­tion Forum) eHealth Eval­u­a­tion Lab 2015 teil. Die Auf­gabe bestand darin die Worterken­nungs­fehler beim Kon­vertieren von ver­balen Patien­tenüber­gaben zwis­chen Pflegeper­son­al  zu Frei-Form-Textdoku­menten zu min­imieren. Das Forschung­steam ver­fol­gte hier den Ansatz, dass jedes gesproch­ene medi­zinis­che Doku­ment seinen eige­nen Kon­text besitzt. Der erste Schritt der Meth­ode bein­hal­tet die Tran­skrip­tion eines Doku­ments mit­tels eines ASR (auto­mat­ic speech recog­ni­tion) Sys­tems. Die Schlüs­sel­wörter des Textes wer­den dabei extrahiert und über eine Weban­frage zu einem adap­tierten Wörter­buch sowie einem Sprach­mod­ell hinzuge­fügt. Im zweit­en Schritt fol­gt das erneute Dechiffrieren des sel­ben Textes — dies­mal jedoch mit Hil­fe des adap­tierten Wörter­buchs und Sprach­mod­ells.

Im Ver­gle­ich zur ursprünglichen Meth­ode ist eine Min­imierung der Worterken­nungs­fehler zu sehen, jedoch ist keine Verbesserung in Bezug auf die ins­ge­samte Kor­rek­theit der gesproch­enen Doku­mente sicht­bar. Die Ergeb­nisse ihrer Arbeit wur­den auf dem Con­fer­ence and Labs of the Eval­u­a­tion Forum in Toulouse (Frankre­ich), präsen­tiert.

Pub­lika­tion: Herms, Robert; Richter, Daniel; Eibl, Max­i­m­il­ian & Rit­ter, Marc: Unsu­per­vised Lan­guage Mod­el Adap­ta­tion using Utter­ance-based Web Search for Clin­i­cal Speech Recog­ni­tion. In: Work­ing Notes of Con­fer­ence and Labs of the Eval­u­a­tion Forum (CLEF), Toulouse, France, 08.–11.09.2015, 10 S. [Link]

 

TUCool — Optimierung von Klimaanlagen in Serverräumen

tucool

Schema zur erweit­erten Wis­sens­ba­sis von Hard- und Soft­ware der Kli­mat­e­ch­nik [aus: Vodel et al: Adap­tive Sen­sor Data Fusion for Effi­cient Cli­mate Con­trol Sys­tems, S.6]

Gemein­sam mit PD Dr.-Ing Matthias Vodel und Prof. Dr. Wol­fram Hardt, tech­nis­ch­er Leit­er des Uni­ver­sität­srechen­zen­trums (URZ) der TU Chem­nitz, entwick­elte Jun.-Prof. Dr. Marc Rit­ter, von der Junior­pro­fes­sur Media Com­put­ing, ein Konzept zur effizien­teren Küh­lung von Server­räu­men. Gemein­sam unter­sucht­en sie Tem­per­aturver­läufe und Abhängigkeit­en ver­schieden­er Tem­per­atur­zo­nen, wobei sie die bere­its ver­füg­bare Hard­ware, wie Tem­per­atursen­soren, in diesen Prozess ein­ban­den. Durch eine geschaf­fene gemein­same Wis­sens­ba­sis, die vorhan­dene Hard- und Soft­ware inte­gri­ert, sind keine zusät­zlichen Sen­soren oder Tech­niken erforder­lich. Erste Tests dieses Konzepts mit dem Namen “TU-Cool” zeigen bere­its einen hohen Grad der Opti­mierung sowie erhe­bliche Kosteneinsparun­gen durch den jew­eili­gen Kom­pro­miss zwis­chen Energiev­er­sorgung und Küh­lungska­paz­itäten. Die Ergeb­nisse der gemein­samen Arbeit präsen­tierte PD Dr.-Ing. habil. Matthias Vodel im Rah­men des “Uni­ver­sal Access” Work­shops auf der “17th Inter­na­tion­al Con­fer­ence on Human-Com­put­er Inter­ac­tion” (HCII).

Pub­lika­tion: Vodel, Matthias & Rit­ter, Marc. Adap­tive Sen­sor Data Fusion for Effi­cient Cli­mate Con­trol Sys­tems. In: Uni­ver­sal Access in Human-Com­put­er Inter­ac­tion. Access to Inter­ac­tion, Part II. Lec­ture Notes in Com­puter Sci­ence, Nr. 9176. Switzer­land : Springer Inter­na­tional Pub­lish­ing. HCI Inter­na­tional, Los Ange­les, CAUSA, 02.–07.08.2015, S.582–593. [Link]

 

Modellbasierte Tools zur Objekterkennung in Videomaterial

object
Videoan­no­ta­tions-Tool [aus: Rit­ter et.al. Rapid Mod­el-Dri­ven Anno­ta­tion and Eval­u­a­tion for Object Detec­tion in Videos]

Prof. Dr. Max­i­m­il­ian Eibl und Michael Storz von der Pro­fes­sur für Medi­en­in­for­matik entwick­el­ten gemein­sam mit Jun.-Prof. Dr. Marc Rit­ter und Manuel Heinzig von der Junior­pro­fes­sur Media Com­put­ing Tools zur Anno­ta­tion und Eval­u­a­tion zur Objek­terken­nung in Video­ma­te­r­i­al. Dafür erweit­erten sie einen mod­ell­basierten Ansatz zur Anno­ta­tion von Bild­ma­te­ri­alien auf Videos und testeten diesen im Ver­gle­ich mit anderen Tools, die derzeit auf im Forschungs­bere­ich existieren. Ergeb­nis dieser Forschung sind u.a. zwei Kom­po­nen­ten zur schnellen Videoan­no­ta­tion und Eval­u­a­tion. Die Videoan­no­ta­tion­skom­po­nente ermöglicht das Sprin­gen zu einzel­nen Frames während in ein­er Liste und in der zuge­höri­gen Time­line die annotierten Ele­mente angezeigt wer­den. Mit der Eval­u­a­tion­skom­po­nente kön­nen die erkan­nten Objek­te schließlich als falsch oder pos­i­tiv bew­ertet wer­den. Die Entwick­lung der bei­den Kom­po­nen­ten dient dem Team von Local­izeIt und der Junior­pro­fes­sur außer­dem als Vor­bere­itung auf die Teil­nahme am diesjähri­gen Track “Instance Search” inner­halb der vom amerikanis­chen Insti­tut for Stan­dards and Tech­nolo­gies jährlich ver­anstal­teten wis­senschaftlichen Eval­u­a­tion­skam­pagne TRECVid (Text Retrieval Eval­u­a­tion Cam­paign on Videos).

Die Ergeb­nisse der gemein­samen Forschungsar­beit wur­den im Rah­men des “Uni­ver­sal Access Work­shops” auf der “17th Inter­na­tion­al Con­fer­ence on Human-Com­put­er Inter­ac­tion” (HCII) in Los Ange­les, USA vor.

Pub­lika­tion: Rit­ter, Marc; Storz, Michael; Heinzig, Manuel & Eibl, Max­i­m­il­ian. Rapid Mod­el-Dri­ven Anno­ta­tion and Eval­u­a­tion for Object Detec­tion in Videos. In: Uni­ver­sal Access in Human-Com­put­er Inter­ac­tion. Access to Inter­ac­tion, Part I. Lec­ture Notes in Com­puter Sci­ence, Nr. 9175. Switzer­land: Springer Inter­na­tional Pub­lish­ing. HCIInter­na­tional, Los Ange­les, CAUSA, 02.–07.08.2015, S.464–474. [Link]

 

Entwicklung kognitiver Tools für intelligente CAD-Systeme

Die Nutzung pro­fes­sioneller CAD (com­put­er-aid­ed design) Soft­ware erfordert nicht nur fach­lich­es Know How, son­dern auch Übung im Umgang mit der Soft­ware. Prof. Dr. Dr. Gisela S. Bahr und Prof. Stephen L. Wood vom Depart­ment of Bio­med­ical Engi­neer­ing des Flori­da Insti­tute of Tech­nol­o­gy unter­sucht­en gemein­sam mit Jun.-Prof. Dr. Marc Rit­ter, Inhab­er der Junior­pro­fes­sur Media Com­put­ing der TU Chem­nitz, kog­ni­tive Tools, die CAD-Nutzer bei ihrer Arbeit unter­stützen sollen. Ziel ist es, uner­fahre­nen Nutzern Lösungsvorschläge anzu­bi­eten, mit denen sie ihr aktuelles Pro­jekt verbessern kön­nen. Als Grund­lage für diese Vorschläge dient eine Studie, in der erfahrene CAD-Nutzer beobachtet und deren Lösungsan­sätze für ver­schiedene Prob­lem­stel­lun­gen weit­er­ver­ar­beit­et wur­den. Beispiel­sweise wird Anfängern somit eine Möglichkeit an die Hand gegeben, Muster und Hin­weise ein­blenden zu lassen, um sich schneller mit dem Pro­gramm und dessen Möglichkeit­en ver­traut zu machen. Eine weit­ere Unter­stützungsmöglichkeit auf dem Weg zum intel­li­gen­ten CAD-Sys­tem bilden Wid­gets, die Auf­gaben automa­tisch ergänzen oder einem erfahre­nen Nutzer Kniffe zeigen, die ursprünglich von anderen erfahre­nen Inge­nieuren mit der­sel­ben oder ähn­lichen Prob­lem­stel­lung stam­men.

Pub­lika­tion: Bahr, Gisela Susanne; Wood, Stephen & Rit­ter, Marc. Cog­ni­tive Tools for Design Engi­neers: A Frame­work for the Devel­op­ment of Intel­li­gent CAD Sys­tems. In: i-com 14(2), S.138–146. [Link]

 
 
Projektgeber

Gef M BMBF

Gef M BMBF

LocalizeIt wird durch das Bundesministerium für Bildung und Forschung BMBF und die BMBF Innovationsinitiative Unternehmen Region von August 2014 bis Juli 2019 gefördert und durch den Projektträger PtJ betreut.

Projektnehmer

Logo TU trans cropp

Logo MI

Logo MC TRANS

localizeIT ist ein Projekt der
Stiftungsjuniorprofessur Media Computing und der Professur Medieninformatik der Technischen Universität Chemnitz

Forschungspartner

Intenta Logo

3D MicroMag Logo

IBS Logo

Kontakt

Dr. rer. nat. Danny Kowerko
Tech­ni­sche Uni­ver­si­tät Chem­nitz
Fakul­tät für Infor­ma­tik
Juniorpro­fes­sur Medi­a Computing
Straße der Natio­nen 62
09111 Chemnitz