Zielgerichtete duale adversarische Lernmethodik und ein multimodales, multiskenario-basiertes Benchmark zur Fusion von Infrarot- und Sichtbarem für die Objekterkennung

Diese Studie befasst sich mit der Fusion von Infrarot- und Sichtbare-Bildern, die sich hinsichtlich der Objekterkennung unterscheiden. Um Bilder mit hoher visueller Qualität zu erzeugen, haben frühere Ansätze gemeinsame, zugrundeliegende Merkmale beider Modaliäten identifiziert und auf dem gemeinsamen Merkmalsraum entweder durch iterative Optimierung oder tiefgreifende Netzwerke gefaltet. Diese Ansätze vernachlässigen jedoch, dass die Unterschiede zwischen den Modaliäten – die wertvolle ergänzende Information enthalten – für sowohl die Fusion als auch die nachfolgende Erkennungsaufgabe von entscheidender Bedeutung sind. In dieser Arbeit wird eine zweistufige Optimierungsformulierung für das gemeinsame Problem der Fusion und Erkennung vorgeschlagen, die anschließend in ein zielorientiertes Dual-Adversariales Lernnetzwerk (TarDAL) zur Bildfusion und ein üblicherweise verwendeter Erkennungsnetzwerk entfaltet wird. Das Fusionssystem mit einem Generator und zwei Diskriminatoren strebt nach gemeinsamen Merkmalen, lernt aber gleichzeitig von den Unterschieden, wodurch strukturelle Informationen aus dem Infrarotbild und texturale Details aus dem sichtbaren Bild erhalten bleiben. Darüber hinaus haben wir ein synchronisiertes Aufnahmesystem mit kalibrierten Infrarot- und optischen Sensoren aufgebaut und derzeit den umfassendsten Benchmark gesammelt, der eine breite Palette an Szenarien abdeckt. Umfangreiche Experimente an mehreren öffentlichen Datensätzen sowie am eigenen Benchmark zeigen, dass unsere Methode nicht nur visuell ansprechende Fusionsergebnisse liefert, sondern auch eine höhere ErkennungsmAP im Vergleich zu den aktuellen State-of-the-Art-Verfahren erreicht.