CRAFT : Détection d'objets 3D caméra-radar avec transformateur à fusion spatio-contextuelle

Les capteurs caméra et radar présentent des avantages significatifs en matière de coût, de fiabilité et de maintenance par rapport aux capteurs LiDAR. Les méthodes de fusion existantes fondent souvent la combinaison des sorties de capteurs unimodaux au niveau des résultats, une approche connue sous le nom de fusion tardive. Bien que cette stratégie puisse tirer parti d’algorithmes de détection préexistants pour capteurs uniques, elle ne parvient pas à exploiter pleinement les propriétés complémentaires des capteurs, ce qui limite ses performances malgré le potentiel considérable de la fusion caméra-radar. Dans cet article, nous proposons une nouvelle approche originale de fusion précoce au niveau des propositions, qui exploite efficacement à la fois les propriétés spatiales et contextuelles des données caméra et radar pour la détection 3D d’objets. Notre cadre de fusion associe tout d’abord les propositions d’image aux points radar dans le système de coordonnées polaires, permettant ainsi de traiter efficacement les différences entre les systèmes de coordonnées et les propriétés spatiales. À partir de cette étape initiale, des couches successives de fusion de caractéristiques basées sur l’attention croisée échangent de manière adaptative des informations spatio-contextuelles entre caméra et radar, aboutissant à une fusion robuste et attentive. L’approche de fusion caméra-radar proposée atteint un résultat de 41,1 % de mAP et de 52,3 % de NDS sur le jeu de test nuScenes, soit une amélioration de 8,7 et 10,8 points par rapport à la base de détection caméra seule, tout en offrant des performances compétitives par rapport aux méthodes basées sur le LiDAR.