HyperAIHyperAI

Command Palette

Search for a command to run...

RoadFormer+: Die RGB-X Szene-Parsing durch skalenbewusste Informationsentkopplung und fortschrittliche heterogene Merkmalsfusion

Jianxin Huang, Student Member, IEEE, Jiahang Li, Graduate Student Member, IEEE, Ning Jia, Yuxiang Sun, Chengju Liu, Qijun Chen, Senior Member, IEEE, and Rui Fan, Senior Member, IEEE

Zusammenfassung

Task-spezifische Datenfusionnetze haben erhebliche Erfolge bei der Analyse städtischer Szenen erzielt. Unter diesen Netzen hat unser kürzlich vorgeschlagenes RoadFormer erfolgreich heterogene Merkmale aus RGB-Bildern und Oberflächennormalkarten extrahiert und diese durch Aufmerksamkeitsmechanismen fusioniert, was eine überzeugende Effizienz bei der RGB-Normal-Straßenszenenanalyse gezeigt hat. Allerdings verschlechtert sich seine Leistung erheblich, wenn es andere Datentypen/Quellen verarbeitet oder allgemeinere, alle Kategorien umfassende Szenenanalisierungsaufgaben durchführt. Um diese Einschränkungen zu überwinden, stellt diese Studie RoadFormer+ vor, ein effizientes, robustes und anpassungsfähiges Modell, das in der Lage ist, RGB-X-Daten effektiv zu fusionieren, wobei „X“ für zusätzliche Datentypen/Modalitäten wie Tiefe (depth), thermische Daten (thermal), Oberflächennormalen (surface normal) und Polarisation (polarization) steht.Insbesondere schlagen wir einen neuen hybriden Merkmalsextraktor vor, der heterogene Merkmale extrahiert und diese in globale und lokale Komponenten trennt. Diese getrennten Merkmale werden dann durch einen Dual-Branch Multi-Scale Heterogeneous Feature Fusion Block fusioniert, der parallele Transformer-Aufmerksamkeitsmechanismen und Convolutional Neural Network-Module verwendet, um Merkmale auf verschiedenen Skalen und Rezeptivfeldern zusammenzuführen. Die fusionierten Merkmale werden anschließend in einen Dekoder eingespeist, um die endgültigen semantischen Vorhersagen zu generieren. Bemerkenswerterweise erreicht unser vorgeschlagener RoadFormer+ den ersten Platz im KITTI Road Benchmark und führt die besten Ergebnisse im Durchschnittswert des Intersection over Union auf den Cityscapes-, MFNet-, FMB- und ZJU-Datensätzen. Darüber hinaus reduziert er die Anzahl der lernfähigen Parameter um 65 % im Vergleich zu RoadFormer. Unser Quellcode wird öffentlich verfügbar sein unter mias.group/RoadFormerPlus.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
RoadFormer+: Die RGB-X Szene-Parsing durch skalenbewusste Informationsentkopplung und fortschrittliche heterogene Merkmalsfusion | Paper | HyperAI