HyperAIHyperAI
vor 2 Monaten

HAPNet: Auf dem Weg zu überlegener RGB-Thermal Szeneanalyse durch hybride, asymmetrische und progressive heterogene Merkmalsfusion

Jiahang Li; Peng Yun; Qijun Chen; Rui Fan
HAPNet: Auf dem Weg zu überlegener RGB-Thermal Szeneanalyse durch hybride, asymmetrische und progressive heterogene Merkmalsfusion
Abstract

Datenfusionnetze haben bei der RGB-Thermalszenenanalyse erhebliches Potenzial gezeigt. Dennoch haben die meisten bisherigen Studien auf symmetrische Duplexencoder zur heterogenen Merkmalsextraktion und -fusion zurückgegriffen, wobei sie den inhärenten Unterschieden zwischen RGB- und Thermalmodalitäten unzureichend Rechnung getragen haben. Fortschritte bei visuellen Grundlagenmodellen (VGWs), die durch Selbstüberwachung auf großen Mengen unlabeleder Daten trainiert wurden, haben ihre Fähigkeit bewiesen, informativ und allgemein verwendbare Merkmale zu extrahieren. Dieses Potenzial wurde jedoch im Bereich noch nicht vollständig genutzt. In dieser Studie machen wir einen Schritt in Richtung dieses neuen Forschungsgebiets, indem wir eine machbare Strategie erforschen, um VGW-Merkmale für die RGB-Thermalszenenanalyse voll auszuschöpfen. Insbesondere untersuchen wir die einzigartigen Eigenschaften von RGB- und Thermalmodalitäten detaillierter, um einen hybriden, asymmetrischen Encoder zu entwickeln, der sowohl ein VGW als auch ein konvolutionsneuronales Netzwerk (CNN) integriert. Diese Konstruktion ermöglicht eine effektivere Extraktion komplementärer heterogener Merkmale, die anschließend in einem dualen, fortschreitenden Verfahren fusioniert werden. Darüber hinaus führen wir eine Nebenaufgabe ein, um die lokalen Semantiken der fusionierten Merkmale weiter zu bereichern und damit die Gesamtleistung der RGB-Thermalszenenanalyse zu verbessern. Unser vorgeschlagenes HAPNet erzielt dank aller dieser Komponenten überlegene Ergebnisse im Vergleich zu anderen state-of-the-art RGB-Thermal-Szenenanlayse-Netzwerken und erreicht Spitzenplätze in drei weit verbreiteten öffentlichen RGB-Thermal-Szenenanlayse-Datensätzen. Wir glauben, dass dieses neue Paradigma neue Möglichkeiten für zukünftige Entwicklungen in Ansatzien zur Datenfusion-Szenenanlayse eröffnet.注释:- "vision foundation models" 翻译为 "visuelle Grundlagenmodelle" (VGWs)- "RGB-thermal scene parsing" 翻译为 "RGB-Thermalszenenanalyse"- "HAPNet" 保留原样,因为这是特定模型的名称- "state-of-the-art" 翻译为 "state-of-the-art"(保持英文),这是科技领域常用的术语- "unlabeled data" 翻译为 "unlabeleder Daten"(保持英文),这也是科技领域常用的术语

HAPNet: Auf dem Weg zu überlegener RGB-Thermal Szeneanalyse durch hybride, asymmetrische und progressive heterogene Merkmalsfusion | Neueste Forschungsarbeiten | HyperAI