Edge-aware Guidance Fusion Network für die RGB-Thermal-Szenenanalyse

Die RGB-Thermalszenenanalyse hat in letzter Zeit zunehmendes Forschungsinteresse im Bereich der Computer Vision hervorgerufen. Allerdings scheitern die meisten bestehenden Methoden daran, präzise Randextraktionen für Vorhersagemappe zu erzielen, und nutzen zudem hochwertige Merkmale nicht vollständig aus. Zudem führen diese Ansätze lediglich eine einfache Fusion der Merkmale aus RGB- und Thermaldaten durch, wodurch keine umfassenden, integrierten Merkmale erzielt werden können. Um diese Probleme zu lösen, stellen wir ein kantenbewusstes Fusionsnetzwerk (EGFNet) für die RGB-Thermalszenenanalyse vor. Zunächst führen wir eine vorab generierte Kantenkarte ein, die auf Basis der RGB- und Thermabbildungen erstellt wird, um detaillierte Informationen in der Vorhersagemappe zu erfassen, und integrieren diese Kanteninformationen anschließend in die Merkmalskarten. Um die RGB- und Thermainformationen effektiv zu fusionieren, schlagen wir ein multimodales Fusionsmodul vor, das eine ausreichende Kreuzmodalfusion gewährleistet. Angesichts der Bedeutung hochwertiger semantischer Informationen präsentieren wir ein globales Informationsmodul sowie ein semantisches Informationsmodul, um reichhaltige semantische Informationen aus den hochwertigen Merkmalen zu extrahieren. Für die Dekodierung verwenden wir eine einfache elementweise Addition zur kaskadierten Merkmalsfusion. Schließlich verbessern wir die Genauigkeit der Szenenanalyse durch die Anwendung einer mehrfachen tiefen Überwachung sowohl für semantische als auch für Randkarten. Um die Wirksamkeit des vorgeschlagenen EGFNet zu demonstrieren, wurden umfangreiche Experimente auf Benchmark-Datensätzen durchgeführt, die dessen überlegene Leistung im Vergleich zu aktuellen State-of-the-Art-Methoden belegen. Der Quellcode und die Ergebnisse sind unter https://github.com/ShaohuaDong2021/EGFNet verfügbar.