2023-09-26 | Anmelden
 
 

Forschungsziele

Die automa­tis­che Analyse von Bild- und Video­ma­te­r­i­al hat in den let­zen Jahren ras­ante Fortschritte erzielt und in eini­gen Bere­ichen den Sprung von der Forschung selb­st in den Con­sumer Mar­ket geschafft. Bestes Beispiel dafür ist die automa­tis­che Gesichts­de­tek­tion, die inzwis­chen in jed­er dig­i­tal­en Kam­era inte­gri­ert ist, um den Aut­o­fokus zu steuern. Auch das Inno­Pro­fil sachs­Me­dia hat sich inten­siv mit der Bil­d­analyse, ins­beson­dere von Video­ma­te­ri­alien auseinan­der geset­zt. Das Ziel der Analyse bestand in der Ent­deck­ung von Per­so­n­en und Objek­ten. Als Anwen­dungs­fall diente audio­vi­suelle Inhalte aus der Filmwirtschaft, wie sie beispiel­sweise im Lokalfernse­hen entstehen.

Im Rah­men des Inno­Pro­file-Trans­fer­pro­jek­tes local­izeIT wird nun die Fragestel­lung zur Lokalisierung visueller Medi­en bear­beit­et. Dabei wird zwis­chen drei wesentlichen Lokalisierungsstrate­gien unter­schieden: Lokalisierung des Medi­ums, Lokalisierung im Medi­um, Lokalisierung in der Welt. Aus dieser Auf­gaben­stel­lung ergeben sich jedoch auch die Prob­lem­bere­iche Echtzeit, Präzi­sion, und Syn­chro­ni­sa­tion und führen zu fol­gen­den Themenschwerpunkten.

Lokalisierungsstrategien

Lokalisierung des Medi­ums: Mod­erne Fotokam­eras hal­ten zu Auf­nah­men in der Regel GPS-Dat­en bere­it, die in EXIF-Beschrei­bungs­dat­en abge­spe­ichert wer­den. Filmkam­eras hal­ten noch keine GPS-Dat­en fest. Inter­es­sant ist also die Lokalisierung für Medi­en, die noch ohne GPS-Dat­en aufgenom­men wur­den. Hier kann ein Ver­gle­ich mit anderen Auf­nah­men, bei denen die Lokalisierung bekan­nt ist, hil­fre­ich sein. Dabei han­delt es sich um ein Prob­lem, das mit klas­sis­chen Bild­ver­ar­beitungsver­fahren ange­gan­gen wer­den kann. So kann zumin­d­est dort, wo entsprechen­des Ver­gle­ichs­ma­te­r­i­al existiert, eine nachträgliche Lokalisierung durchge­führt werden.

Doch die Lokalisierung von Medi­en ist nicht nur auf rein räum­liche Aspek­te beschränkt. So nutzen die reinen GPS-Koor­di­nat­en “52.507595, 13.372507” beispiel­sweise zunächst ein­mal sehr wenig. Eine Recherche in einem Infor­ma­tion­ssys­tem wird nach dem dazuge­höri­gen Ort stat­tfind­en. Über entsprechende Dien­ste kann aus den GPS-Dat­en auf den Ort geschlossen wer­den: Mar­lene-Diet­rich-Platz in Berlin. Und hier wird die Lokalisierung wis­senschaftlich span­nend: Dieser Platz ist zeitab­hängig sehr wan­del­bar, vor allem in sein­er Bedeu­tung. In Kom­bi­na­tion mit dem Auf­nahme­da­tum, kann die Lokalisierung nun fest­stellen, dass die Auf­nahme den roten Tep­pich während der Berli­nale zeigt. Ein solch umfassender Dienst existiert bis­lang nicht, ist aber in ver­schieden­sten Anwen­dungszusam­men­hän­gen denkbar, wo Orte zeitab­hängige Bedeu­tung haben, von kurzzeit­i­gen Staus und Unfällen, über Ver­anstal­tun­gen bis hin zu his­torischen Aufnahmen.

Lokalisierung im Medi­um: Die Lokalisierung von Objek­ten in Medi­en ist typ­is­cher­weise in Überwachungsszenar­ien von beson­der­er Bedeu­tung. So wer­den beispiel­sweise in öffentlichen Gebäu­den sta­tis­che Überwachungskam­eras instal­liert, die beobacht­en, ob Per­so­n­en durch eine Tür gehen. Genutzt wird dies etwa bei sicher­heit­skri­tis­chen Umge­bun­gen wie Flughäfen oder nur zu Zäh­lzweck­en wie in Kaufhäusern. Dazu wer­den Per­so­n­en im Bild erkan­nt und ihre Bewe­gung ver­fol­gt und mit der Posi­tion der Tür ver­glichen. Ein Anwen­dungs­fall mit der tech­nisch gle­ichen aber inhaltlich umgekehrten Zielset­zung ist die Anonymisierung. So müssen beispiel­sweise bei automa­tisch aufgenomme­nen Videos zur Streck­en­be­w­er­tung der Bahn zufäl­lig aufgenommene Per­so­n­en unken­ntlich gemacht wer­den. Auch hier gilt es zunächst die Per­so­n­en zu lokalisieren, um möglichst nur die Per­so­n­en und nicht die Umge­bung unken­ntlich zu machen.

Zur repräsen­ta­tiv­en Darstel­lung der Video­dat­en eignen sich großflächige Dis­plays in Form von Pow­er­walls, bei denen das Gesamt­bild von mehreren zum Teil über­lap­pen­den Pro­jek­toren erzeugt wird. Die Lokalisierung dabei auftre­tender Farb- und Geome­triev­erz­er­run­gen ist eine wichtige Voraus­set­zung, um mit Hil­fe von Kalib­rierungsver­fahren eine angemessene Bildqual­ität sicherzustellen.

Lokalisierung in der Welt: Wer­den die Lokalisierung des Medi­ums und die Lokalisierung im Medi­um miteinan­der kom­biniert, wird eine Lokalisierung einzel­ner Objek­te in der realen Welt möglich. Die Lokalisierung der Objek­te gestal­tet sich somit unab­hängig vom aufnehmenden Medi­um. Tech­nisch gese­hen wird aus dem Kam­er­abild ein Welt­mod­ell aufge­baut, in dem sich erkan­nte Objek­te befind­en. Die Posi­tion der Objek­te ist bekan­nt und kann unab­hängig vom Auf­nahmesys­tem kam­er­aüber­greifend analysiert und erkan­nt wer­den. Solche Ver­fahren wer­den beispiel­sweise in der Auto­mo­bil­branche entwick­elt, um die automa­tis­che Nav­i­ga­tion zu ermöglichen.

Problembereiche

Echtzeit: Die Bear­beitung von Archiv­ma­te­r­i­al, wie sie in sachs­Me­dia und val­i­dAX erfol­gt, ist nicht zeitkri­tisch. Ob die Analyse eine ein­stündi­gen Videos eben­falls eine Stunde oder einen Tag dauert, ist zunächst ein­mal egal. Die hier angestrebte Analyse muss in Echtzeit, bzw. nah an Echtzeit erfol­gen, da die Ein­satzbere­iche zeitkri­tisch sind. Die geplanten Anwen­dungs­bere­iche reichen von der Analyse von Pho­togra­phien für die aktuelle Berichter­stat­tung von Print­me­di­en bis hin zu videobasierten Überwachungssystemen.

Präzi­sion: Das Anwen­dungs­feld Archivierung von TV-Mate­r­i­al ist in der Präzi­sion der Video­analyse ver­gle­ich­sweise tol­er­ant. Zum einen kann das Analy­seergeb­nis mit dem Ergeb­nis der Audio­analyse abgeglichen wer­den. Zusät­zlich kön­nen manuelle Beschrei­bun­gen der TV-Sender über­nom­men wer­den. Dadurch basiert das Gesamtergeb­nis auf ver­schiede­nen Analy­sen. Zum anderen ist die eigentliche Auf­gabe im Archivierungssys­tem, näm­lich die Suche nach Video­ma­te­r­i­al, auch bei fehler­haften Analy­sen im schlimm­sten Fall verzögert. Die hier angestrebten Anwen­dungs­bere­iche sind im Punkt Analy­sepräzi­sion deut­lich restrik­tiv­er. Beim Ein­satz in sicher­heit­skri­tis­chen Umge­bun­gen scheint das intu­itiv Nachvol­lziehbar, aber Notwendigkeit für Präzi­sion begin­nt schon viel eher: Geht es beispiel­sweise um die Anonymisierung von Video­ma­te­r­i­al (s.o.), ist eine nicht ent­deck­te und ver­pix­elte Per­son bere­its ein juris­tisch rel­e­vantes Datenschutzproblem.

Syn­chro­ni­sa­tion: TV-Mate­r­i­al ist in einem weit­eren Punkt deut­lich ein­fach­er als das hier angestrebte Pro­jek­tziel: Es wird immer nur eine Kam­er­ap­er­spek­tive analysiert. Der Vor­liegende Antrag zielt darüber hin­aus ins­beson­dere Lokalisierung in der Welt auf Mehrkam­er­aerken­nung ab. D. h. die Analy­sen ver­schieden­er Kam­er­abilder müssen miteinan­der syn­chro­nisiert wer­den. Zwei Her­aus­forderun­gen ste­hen hier im Vorder­grund: erstens die Analyse mehrerer Kam­er­abilder in einem Raum, also ver­schiedene Per­spek­tiv­en auf das­selbe Szenario, und zweit­ens verteilte Kam­eras also die Ver­fol­gung von Objek­ten über mehrere sich ergänzende Kameraeinstellungen.

 
 
Projektgeber

Gef M BMBF

Gef M BMBF

LocalizeIt wird durch das Bundesministerium für Bildung und Forschung BMBF und die BMBF Innovationsinitiative Unternehmen Region von August 2014 bis Juli 2019 gefördert und durch den Projektträger PtJ betreut.

Projektnehmer

Logo TU trans cropp

Logo MI

Logo MC TRANS

localizeIT ist ein Projekt der
Stiftungsjuniorprofessur Media Computing und der Professur Medieninformatik der Technischen Universität Chemnitz

Forschungspartner

Intenta Logo

3D MicroMag Logo

IBS Logo

Kontakt

Dr. rer. nat. Danny Kowerko
Tech­ni­sche Uni­ver­si­tät Chem­nitz
Fakul­tät für Infor­ma­tik
Juniorpro­fes­sur Medi­a Computing
Straße der Natio­nen 62
09111 Chemnitz