HyperAIHyperAI
il y a 15 jours

TransFusion : Fusion robuste LiDAR-Caméra pour la détection d'objets 3D avec des Transformers

Xuyang Bai, Zeyu Hu, Xinge Zhu, Qingqiu Huang, Yilun Chen, Hongbo Fu, Chiew-Lan Tai
TransFusion : Fusion robuste LiDAR-Caméra pour la détection d'objets 3D avec des Transformers
Résumé

Le LiDAR et la caméra sont deux capteurs essentiels pour la détection d’objets 3D dans les véhicules autonomes. Malgré l’essor croissant de la fusion de capteurs dans ce domaine, la robustesse face à des conditions d’image défavorables — telles que des éclairages médiocres ou des erreurs d’alignement des capteurs — reste peu explorée. Les méthodes de fusion existantes sont facilement affectées par ces conditions, principalement en raison d’une association rigide entre les points LiDAR et les pixels d’image, établie à l’aide de matrices de calibration. Nous proposons TransFusion, une solution robuste pour la fusion LiDAR-caméra reposant sur un mécanisme d’association souple afin de gérer efficacement les conditions d’image dégradées. Plus précisément, TransFusion repose sur des architectures convolutives et une tête de détection basée sur un décodeur transformer. La première couche du décodeur prédit des boîtes englobantes initiales à partir d’un nuage de points LiDAR en utilisant un ensemble éparse de requêtes d’objets, tandis que la deuxième couche du décodeur fusionne de manière adaptative ces requêtes avec des caractéristiques d’image pertinentes, en exploitant à la fois les relations spatiales et contextuelles. Le mécanisme d’attention du transformer permet à notre modèle d’adapter dynamiquement l’information à extraire de l’image — en termes de localisation et de contenu — conduisant ainsi à une stratégie de fusion robuste et efficace. Nous avons également conçu une stratégie d’initialisation des requêtes guidée par l’image pour traiter les objets difficiles à détecter dans les nuages de points. TransFusion atteint des performances de pointe sur des jeux de données à grande échelle. Nous présentons des expériences approfondies démontrant sa robustesse face à une dégradation de la qualité d’image et à des erreurs de calibration. Nous étendons également la méthode proposée à la tâche de suivi 3D, obtenant ainsi la première place au classement du benchmark nuScenes Tracking, ce qui atteste de son efficacité et de sa capacité de généralisation.

TransFusion : Fusion robuste LiDAR-Caméra pour la détection d'objets 3D avec des Transformers | Articles de recherche récents | HyperAI