Mehrinteraktives Merkmalslernen und ein vollständiger multimodaler Benchmark für Bildfusion und -segmentierung

Die Fusion und Segmentierung von multimodalen Bildern spielen eine entscheidende Rolle im autonomen Fahren und der Robotik. Frühe Bemühungen konzentrierten sich auf die Verbesserung der Leistung für nur eine Aufgabe, z. B. Fusion oder Segmentierung, was es schwierig machte, das „Beste von beiden Welten“ zu erreichen. Um dieses Problem zu überwinden, schlagen wir in diesem Artikel eine Multi-interaktive Feature-Lernarchitektur für Bildfusion und -segmentierung vor, kurz SegMiF genannt, und nutzen die Korrelation zwischen den beiden Aufgaben, um die Leistung beider zu steigern. Die SegMiF verfügt über eine kaskadenförmige Struktur, die ein Fusionsunternetzwerk und ein häufig verwendetes Segmentierungsunternetzwerk enthält. Durch geschicktes Verbinden von Zwischenfeatures zwischen den beiden Komponenten kann das Wissen, das aus der Segmentieraufgabe gelernt wurde, die Fusionsaufgabe effektiv unterstützen. Gleichzeitig unterstützt das verbesserte Fusionsnetzwerk das Segmentierungsnetzwerk bei einer präziseren Ausführung. Darüber hinaus wurde ein hierarchischer interaktiver Aufmerksamkeitsblock eingerichtet, um eine feingranulare Abbildung aller wichtigen Informationen zwischen den beiden Aufgaben sicherzustellen, sodass modalitäts- und semantische Features vollständig miteinander interagieren können. Zudem wird ein dynamischer Gewichtsfaktor eingeführt, um automatisch die entsprechenden Gewichte jeder Aufgabe anzupassen. Dies kann die interaktive Feature-Korrespondenz ausbalancieren und die Einschränkungen mühsamer Feinabstimmung durchbrechen. Des Weiteren haben wir ein intelligentes Mehrwellen-Binoculäres Bildgebungssystem konstruiert und einen umfassenden multimodalen Benchmark mit 15 annotierten Pixel-Level-Kategorien für Bildfusion und -segmentierung erstellt. Ausführliche Experimente auf mehreren öffentlichen Datensätzen sowie unserem Benchmark zeigen, dass das vorgeschlagene Verfahren visuell ansprechende gefusionierte Bilder erzeugt und im realen Szenario durchschnittlich 7,66 % höhere Segmentation mIoU-Werte als state-of-the-art-Methoden erreicht. Der Quellcode und der Benchmark sind unter \url{https://github.com/JinyuanLiu-CV/SegMiF} verfügbar.注:在德语文本中,百分比符号通常放在数字后面,中间有一个空格。此外,URL链接通常保留为英文。