HyperAIHyperAI
vor 11 Tagen

CRAFT: Camera-Radar 3D-Objekterkennung mit spatio-kontextueller Fusion über Transformer

Youngseok Kim, Sanmin Kim, Jun Won Choi, Dongsuk Kum
CRAFT: Camera-Radar 3D-Objekterkennung mit spatio-kontextueller Fusion über Transformer
Abstract

Kamerasensoren und Radarsensoren weisen im Vergleich zu LiDAR erhebliche Vorteile hinsichtlich Kosten, Zuverlässigkeit und Wartung auf. Bestehende Fusionsmethoden fusionieren häufig die Ausgaben einzelner Modalitäten auf Ergebnisebene, was als späte Fusionsstrategie bezeichnet wird. Diese Herangehensweise kann von kommerziell verfügbaren Detektionsalgorithmen für Einzelsensoren profitieren, kann jedoch die ergänzenden Eigenschaften der Sensoren nicht vollständig ausnutzen, was zu begrenzter Leistung führt, trotz des großen Potenzials von Kamera-Radar-Fusion. In diesem Beitrag stellen wir einen neuartigen Ansatz auf Vorschlags- (proposal-level) Ebene vor, der eine frühe Fusionsstrategie verfolgt und dabei sowohl räumliche als auch kontextuelle Eigenschaften von Kamera und Radar effektiv nutzt, um die 3D-Objekterkennung zu verbessern. Unser Fusionsframework assoziiert zunächst Bildvorschläge mit Radarpunkten im Polarkoordinatensystem, um die Diskrepanz zwischen Koordinatensystem und räumlichen Eigenschaften effizient zu behandeln. Auf dieser Grundlage ermöglichen nachfolgende, auf Kreuz-Attention basierende Fusionschichten eine adaptivere Austausch von räumlich-kontextuellen Informationen zwischen Kamera und Radar, was eine robuste und aufmerksame Fusionsleistung ermöglicht. Unser Ansatz zur Kamera-Radar-Fusion erreicht auf dem nuScenes-Testset den Stand der Technik mit 41,1 % mAP und 52,3 % NDS – das entspricht einer Verbesserung um 8,7 und 10,8 Punkte gegenüber der Kamera-allein-Baseline – und zeigt zudem konkurrenzfähige Leistung im Vergleich zu LiDAR-basierten Methoden.

CRAFT: Camera-Radar 3D-Objekterkennung mit spatio-kontextueller Fusion über Transformer | Neueste Forschungsarbeiten | HyperAI