HyperAIHyperAI
vor 12 Tagen

MTANet: Multitask-Aware Network mit hierarchischer multimodaler Fusion für die RGB-T-Stadtlandschaftserfassung

{Lu Yu, Jingsheng Lei, Shaohua Dong, WuJie Zhou}
Abstract

Die Verständnisfähigkeit urbaner Szenen stellt eine grundlegende Anforderung für assistierte Fahrsysteme und autonome Fahrzeuge dar. Die meisten verfügbaren Methoden zur Szenenverstehens in städtischen Umgebungen basieren auf Farbbildern (RGB); ihre Segmentierungsergebnisse neigen jedoch unter ungünstigen Beleuchtungsbedingungen zu einer Leistungseinbuße. In jüngster Zeit wurden zahlreiche effektive künstliche neuronale Netze für das Szenenverstehen in städtischen Gebieten vorgestellt, wobei sich gezeigt hat, dass die Kombination von RGB- und Thermobildern (RGB-T) die Segmentierungsgenauigkeit auch unter suboptimalen Lichtverhältnissen verbessern kann. Allerdings wurde das volle Potenzial der multimodalen Merkmalsfusion bisher nicht ausgeschöpft, da bislang einfache Operationen wie die einfache Verkettung der RGB- und Thermomerkmale oder das Durchschnittnehmen der zugehörigen Karten angewendet wurden. Um die Fusion multimodaler Merkmale und die Segmentierungsgenauigkeit zu verbessern, schlagen wir ein multitask-orientiertes Netzwerk (MTANet) mit hierarchischer multimodaler Fusion (Multiskalen-Fusionsstrategie) für das RGB-T-Szenenverstehen in städtischen Umgebungen vor. Wir haben ein hierarchisches multimodales Fusionsmodul entwickelt, um die Merkmalsfusion zu verstärken, und ein Modul für hochwertige semantische Informationen entworfen, um semantische Merkmale auf verschiedenen Abstraktionsstufen mit groben Merkmalen zu kombinieren. Durch die Nutzung des mehrstufigen Fusionsmoduls konnten wir Fusionsstrategien auf niedriger, mittlerer und hoher Ebene einsetzen, um die Segmentierungsgenauigkeit zu erhöhen. Der Multitask-Modul nutzt Grenz-, Binär- und semantische Aufsicht, um die Parameter des MTANet zu optimieren. Um die verbesserte Leistung des vorgeschlagenen MTANet gegenüber aktuellen State-of-the-Art-Methoden zu validieren, wurden umfangreiche Experimente an zwei Standard-RGB-T-Datensätzen durchgeführt.

MTANet: Multitask-Aware Network mit hierarchischer multimodaler Fusion für die RGB-T-Stadtlandschaftserfassung | Neueste Forschungsarbeiten | HyperAI