HyperAIHyperAI
vor 11 Tagen

CACFNet: Cross-Modal Attention Cascaded Fusion Network für die RGB-T-urbanen Szenenanalyse

{Lu Yu, Meixin Fang, Shaohua Dong, WuJie Zhou}
Abstract

Die Farb–Thermografie-(RGB-T-)Szenenanalyse städtischer Umgebungen hat in letzter Zeit erhebliches Interesse hervorgerufen. Allerdings untersuchen die meisten bestehenden Ansätze zur RGB-T-Szenenanalyse die Informationskomplementarität zwischen RGB-T-Features nicht ausreichend tief. In dieser Studie stellen wir ein cross-modales Aufmerksamkeits-kaskadiertes Fusionssnetzwerk (CACFNet) vor, das die cross-modale Information vollständig ausnutzt. In unserem Entwurf enthält ein cross-modales Aufmerksamkeits-Fusionsmodul die Extraktion komplementärer Informationen aus beiden Modalitäten. Anschließend decodiert ein kaskadiertes Fusionsmodul die mehrstufigen Features auf eine aufwärts-abwärts-orientierte Weise. Da jedes Pixel der Kategorie der Region zugeordnet wird, zu der es gehört, präsentieren wir ein regionenbasiertes Modul, das die Beziehung zwischen Pixel und Region untersucht. Darüber hinaus schlagen wir im Gegensatz zu früheren Methoden, die lediglich die Kreuzentropieverlustfunktion zur Strafe der pixelweisen Vorhersagen verwenden, einen zusätzlichen Verlust vor, um die Beziehungen zwischen Pixeln zu lernen. Umfangreiche Experimente auf zwei Datensätzen zeigen, dass das vorgeschlagene CACFNet eine state-of-the-art-Leistung bei der RGB-T-Szenenanalyse städtischer Umgebungen erzielt.

CACFNet: Cross-Modal Attention Cascaded Fusion Network für die RGB-T-urbanen Szenenanalyse | Neueste Forschungsarbeiten | HyperAI