HyperAIHyperAI
il y a 16 jours

Exploitation de compétences multimodales centrées sur la vision pour la détection d'objets 3D

Linyan Huang, Zhiqi Li, Chonghao Sima, Wenhai Wang, Jingdong Wang, Yu Qiao, Hongyang Li
Exploitation de compétences multimodales centrées sur la vision pour la détection d'objets 3D
Résumé

Les recherches actuelles se concentrent principalement sur l'amélioration de la précision des détecteurs 3D à base de caméra uniquement (apprenti) grâce au transfert de connaissances provenant de modèles basés sur LiDAR ou multi-modaux (expert). Toutefois, la présence d'un écart de domaine entre les caractéristiques LiDAR et caméra, combinée à l'incompatibilité intrinsèque dans la fusion temporelle, entrave considérablement l'efficacité des améliorations basées sur la distillation pour les apprentis. Inspirés par le succès de la distillation unimodale, nous proposons un modèle expert adapté aux apprentis, qui repose principalement sur les caractéristiques caméra tout en atteignant des performances comparables à celles des modèles multi-modaux. À cette fin, nous introduisons VCD, un cadre visant à améliorer le modèle apprenti à base de caméra uniquement, incluant un expert multi-modale adapté aux apprentis et une supervision de distillation compatible avec la fusion temporelle. L'expert multi-modale VCD-E adopte une architecture identique à celle du modèle apprenti à base de caméra afin de réduire l'écart des caractéristiques, tout en exploitant l'entrée LiDAR comme priori de profondeur pour reconstruire la scène 3D, atteignant ainsi des performances équivalentes à celles d'autres experts multi-modaux hétérogènes. En outre, nous introduisons un module de distillation fine basé sur les trajectoires, visant à corriger individuellement les désalignements de mouvement pour chaque objet de la scène. Grâce à ces améliorations, notre modèle apprenti à base de caméra VCD-A établit un nouveau record d'état de l'art sur nuScenes avec un score de 63,1 % NDS.

Exploitation de compétences multimodales centrées sur la vision pour la détection d'objets 3D | Articles de recherche récents | HyperAI