HyperAIHyperAI
vor 2 Monaten

RoadFormer+: Die RGB-X Szene-Parsing durch skalenbewusste Informationsentkopplung und fortschrittliche heterogene Merkmalsfusion

Jianxin Huang; Jiahang Li; Ning Jia; Yuxiang Sun; Chengju Liu; Qijun Chen; Rui Fan
RoadFormer+: Die RGB-X Szene-Parsing durch skalenbewusste Informationsentkopplung und fortschrittliche heterogene Merkmalsfusion
Abstract

Task-spezifische Datenfusionnetze haben erhebliche Erfolge bei der Analyse städtischer Szenen erzielt. Unter diesen Netzen hat unser kürzlich vorgeschlagenes RoadFormer erfolgreich heterogene Merkmale aus RGB-Bildern und Oberflächennormalkarten extrahiert und diese durch Aufmerksamkeitsmechanismen fusioniert, was eine überzeugende Effizienz bei der RGB-Normal-Straßenszenenanalyse gezeigt hat. Allerdings verschlechtert sich seine Leistung erheblich, wenn es andere Datentypen/Quellen verarbeitet oder allgemeinere, alle Kategorien umfassende Szenenanalisierungsaufgaben durchführt. Um diese Einschränkungen zu überwinden, stellt diese Studie RoadFormer+ vor, ein effizientes, robustes und anpassungsfähiges Modell, das in der Lage ist, RGB-X-Daten effektiv zu fusionieren, wobei „X“ für zusätzliche Datentypen/Modalitäten wie Tiefe (depth), thermische Daten (thermal), Oberflächennormalen (surface normal) und Polarisation (polarization) steht.Insbesondere schlagen wir einen neuen hybriden Merkmalsextraktor vor, der heterogene Merkmale extrahiert und diese in globale und lokale Komponenten trennt. Diese getrennten Merkmale werden dann durch einen Dual-Branch Multi-Scale Heterogeneous Feature Fusion Block fusioniert, der parallele Transformer-Aufmerksamkeitsmechanismen und Convolutional Neural Network-Module verwendet, um Merkmale auf verschiedenen Skalen und Rezeptivfeldern zusammenzuführen. Die fusionierten Merkmale werden anschließend in einen Dekoder eingespeist, um die endgültigen semantischen Vorhersagen zu generieren. Bemerkenswerterweise erreicht unser vorgeschlagener RoadFormer+ den ersten Platz im KITTI Road Benchmark und führt die besten Ergebnisse im Durchschnittswert des Intersection over Union auf den Cityscapes-, MFNet-, FMB- und ZJU-Datensätzen. Darüber hinaus reduziert er die Anzahl der lernfähigen Parameter um 65 % im Vergleich zu RoadFormer. Unser Quellcode wird öffentlich verfügbar sein unter mias.group/RoadFormerPlus.