HyperAIHyperAI
il y a 2 mois

3D Dual-Fusion : Fusion Caméra-LiDAR à Double Domaine et Double Requête pour la Détection d'Objets en 3D

Yecheol Kim; Konyul Park; Minwook Kim; Dongsuk Kum; Jun Won Choi
3D Dual-Fusion : Fusion Caméra-LiDAR à Double Domaine et Double Requête pour la Détection d'Objets en 3D
Résumé

La fusion de données provenant des caméras et des capteurs LiDAR est une technique essentielle pour réaliser une détection d'objets 3D robuste. Un défi majeur dans la fusion caméra-LiDAR consiste à atténuer l'écart de domaine important entre les deux capteurs en termes de coordonnées et de distribution des données lors de la fusion de leurs caractéristiques. Dans cet article, nous proposons une nouvelle architecture de fusion caméra-LiDAR appelée 3D Dual-Fusion, conçue pour réduire cet écart entre les représentations de caractéristiques des données caméra et LiDAR. La méthode proposée fusionne les caractéristiques du domaine vue-caméra et du domaine voxel-3D, et modélise leurs interactions par le biais d'une attention déformable. Nous avons redessiné l'encodeur de fusion transformer pour agréger les informations provenant des deux domaines. Les deux modifications principales comprennent : 1) une attention déformable basée sur des requêtes doubles pour fusionner les caractéristiques des deux domaines de manière interactive ; 2) une attention locale 3D pour coder les requêtes du domaine voxel avant le décryptage par requêtes doubles. Les résultats d'une évaluation expérimentale montrent que l'architecture de fusion caméra-LiDAR proposée a obtenu des performances compétitives sur les ensembles de données KITTI et nuScenes, avec des performances d'avant-garde dans certaines catégories de benchmarks de détection d'objets 3D.