HyperAIHyperAI
il y a 11 jours

MVFusion : Détection d'objets 3D multi-vues par fusion sémantiquement alignée entre radar et caméra

Zizhang Wu, Guilian Chen, Yuanzhu Gan, Lei Wang, Jian Pu
MVFusion : Détection d'objets 3D multi-vues par fusion sémantiquement alignée entre radar et caméra
Résumé

La détection 3D d'objets par fusion radar-caméra à plusieurs vues offre une portée de détection plus grande et des caractéristiques plus pertinentes pour les véhicules autonomes, en particulier dans des conditions météorologiques défavorables. Les méthodes actuelles de fusion radar-caméra proposent diverses approches pour combiner les informations radar avec les données de caméra. Toutefois, ces approches de fusion s'appuient généralement sur une opération de concaténation directe entre les caractéristiques multi-modales, ce qui néglige l’alignement sémantique entre les caractéristiques radar et les corrélations suffisantes entre les modalités. Dans cet article, nous présentons MVFusion, une nouvelle méthode de fusion radar-caméra à plusieurs vues, visant à obtenir des caractéristiques radar alignées sémantiquement et à renforcer l’interaction d’information entre modalités. Pour atteindre cet objectif, nous introduisons un encodeur radar aligné sémantiquement (SARE) afin d’injecter un alignement sémantique dans les caractéristiques radar, produisant ainsi des caractéristiques radar guidées par l’image. Ensuite, nous proposons un transformateur de fusion guidé par le radar (RGFT), qui permet de fusionner nos caractéristiques radar et image afin de renforcer la corrélation entre les deux modalités à l’échelle globale grâce au mécanisme d’attention croisée. Des expérimentations étendues montrent que MVFusion atteint des performances de pointe sur le jeu de données nuScenes (51,7 % de NDS et 45,3 % de mAP). Nous rendrons disponible notre code ainsi que les réseaux entraînés à la publication.

MVFusion : Détection d'objets 3D multi-vues par fusion sémantiquement alignée entre radar et caméra | Articles de recherche récents | HyperAI