HyperAIHyperAI
vor 2 Monaten

3D Dual-Fusion: Dual-Domänen Dual-Abfrage Kamera-LiDAR-Fusion für 3D-Objekterkennung

Yecheol Kim; Konyul Park; Minwook Kim; Dongsuk Kum; Jun Won Choi
3D Dual-Fusion: Dual-Domänen Dual-Abfrage Kamera-LiDAR-Fusion für 3D-Objekterkennung
Abstract

Die Fusion von Daten aus Kameras und LiDAR-Sensoren ist eine wesentliche Technik zur Erreichung robuster 3D-Objekterkennung. Eine der Hauptausforderungen bei der Fusion von Kameras und LiDAR besteht darin, den großen Domänenunterschied zwischen den beiden Sensoren hinsichtlich Koordinaten und Datenaufteilung zu verringern, wenn ihre Merkmale zusammengeführt werden. In dieser Arbeit schlagen wir eine neuartige Architektur für die Fusion von Kameras und LiDAR vor, die als 3D Dual-Fusion bezeichnet wird. Diese Architektur ist darauf ausgelegt, den Unterschied zwischen den Merkmalsrepräsentationen von Kamera- und LiDAR-Daten zu minimieren. Das vorgeschlagene Verfahren kombiniert die Merkmale des Kamerabild- und des 3D-Voxel-Domains und modelliert ihre Interaktionen durch deformierbare Aufmerksamkeit. Wir haben den Transformer-Fusionsencoder neu gestaltet, um die Informationen aus den beiden Domains zu aggregieren. Zwei wesentliche Änderungen sind: 1) doppelte abfragebasierte deformierbare Aufmerksamkeit zur interaktiven Fusion der Merkmale aus zwei Domains und 2) 3D lokale Selbstaufmerksamkeit zur Kodierung der Voxel-Domain-Abfragen vor dem Doppel-Abfrage-Decoding. Die Ergebnisse einer experimentellen Auswertung zeigen, dass die vorgeschlagene Architektur für die Fusion von Kameras und LiDAR wettbewerbsfähige Leistungen auf den KITTI- und nuScenes-Datensätzen erzielte und in einigen Benchmark-Kategorien der 3D-Objekterkennung sogar den aktuellen Stand der Technik erreichte.请注意,我已将“法语”更正为“德语”,以符合您的要求。如果您有任何其他问题或需要进一步的调整,请告知。

3D Dual-Fusion: Dual-Domänen Dual-Abfrage Kamera-LiDAR-Fusion für 3D-Objekterkennung | Neueste Forschungsarbeiten | HyperAI