HyperAIHyperAI

Command Palette

Search for a command to run...

vor 4 Monaten

MTANet: Multitask-Aware Network mit hierarchischer multimodaler Fusion für die RGB-T-Stadtlandschaftserfassung

{Lu Yu Jingsheng Lei Shaohua Dong WuJie Zhou}

Abstract

Die Verständnisfähigkeit urbaner Szenen stellt eine grundlegende Anforderung für assistierte Fahrsysteme und autonome Fahrzeuge dar. Die meisten verfügbaren Methoden zur Szenenverstehens in städtischen Umgebungen basieren auf Farbbildern (RGB); ihre Segmentierungsergebnisse neigen jedoch unter ungünstigen Beleuchtungsbedingungen zu einer Leistungseinbuße. In jüngster Zeit wurden zahlreiche effektive künstliche neuronale Netze für das Szenenverstehen in städtischen Gebieten vorgestellt, wobei sich gezeigt hat, dass die Kombination von RGB- und Thermobildern (RGB-T) die Segmentierungsgenauigkeit auch unter suboptimalen Lichtverhältnissen verbessern kann. Allerdings wurde das volle Potenzial der multimodalen Merkmalsfusion bisher nicht ausgeschöpft, da bislang einfache Operationen wie die einfache Verkettung der RGB- und Thermomerkmale oder das Durchschnittnehmen der zugehörigen Karten angewendet wurden. Um die Fusion multimodaler Merkmale und die Segmentierungsgenauigkeit zu verbessern, schlagen wir ein multitask-orientiertes Netzwerk (MTANet) mit hierarchischer multimodaler Fusion (Multiskalen-Fusionsstrategie) für das RGB-T-Szenenverstehen in städtischen Umgebungen vor. Wir haben ein hierarchisches multimodales Fusionsmodul entwickelt, um die Merkmalsfusion zu verstärken, und ein Modul für hochwertige semantische Informationen entworfen, um semantische Merkmale auf verschiedenen Abstraktionsstufen mit groben Merkmalen zu kombinieren. Durch die Nutzung des mehrstufigen Fusionsmoduls konnten wir Fusionsstrategien auf niedriger, mittlerer und hoher Ebene einsetzen, um die Segmentierungsgenauigkeit zu erhöhen. Der Multitask-Modul nutzt Grenz-, Binär- und semantische Aufsicht, um die Parameter des MTANet zu optimieren. Um die verbesserte Leistung des vorgeschlagenen MTANet gegenüber aktuellen State-of-the-Art-Methoden zu validieren, wurden umfangreiche Experimente an zwei Standard-RGB-T-Datensätzen durchgeführt.

Benchmarks

BenchmarkMethodikMetriken
thermal-image-segmentation-on-mfn-datasetMTANet
mIOU: 56.1
thermal-image-segmentation-on-pst900MTANet
mIoU: 78.60

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
MTANet: Multitask-Aware Network mit hierarchischer multimodaler Fusion für die RGB-T-Stadtlandschaftserfassung | Forschungsarbeiten | HyperAI