HyperAIHyperAI

Command Palette

Search for a command to run...

Exploitation de compétences multimodales centrées sur la vision pour la détection d'objets 3D

Linyan Huang Zhiqi Li Chonghao Sima Wenhai Wang Jingdong Wang Yu Qiao Hongyang Li

Résumé

Les recherches actuelles se concentrent principalement sur l'amélioration de la précision des détecteurs 3D à base de caméra uniquement (apprenti) grâce au transfert de connaissances provenant de modèles basés sur LiDAR ou multi-modaux (expert). Toutefois, la présence d'un écart de domaine entre les caractéristiques LiDAR et caméra, combinée à l'incompatibilité intrinsèque dans la fusion temporelle, entrave considérablement l'efficacité des améliorations basées sur la distillation pour les apprentis. Inspirés par le succès de la distillation unimodale, nous proposons un modèle expert adapté aux apprentis, qui repose principalement sur les caractéristiques caméra tout en atteignant des performances comparables à celles des modèles multi-modaux. À cette fin, nous introduisons VCD, un cadre visant à améliorer le modèle apprenti à base de caméra uniquement, incluant un expert multi-modale adapté aux apprentis et une supervision de distillation compatible avec la fusion temporelle. L'expert multi-modale VCD-E adopte une architecture identique à celle du modèle apprenti à base de caméra afin de réduire l'écart des caractéristiques, tout en exploitant l'entrée LiDAR comme priori de profondeur pour reconstruire la scène 3D, atteignant ainsi des performances équivalentes à celles d'autres experts multi-modaux hétérogènes. En outre, nous introduisons un module de distillation fine basé sur les trajectoires, visant à corriger individuellement les désalignements de mouvement pour chaque objet de la scène. Grâce à ces améliorations, notre modèle apprenti à base de caméra VCD-A établit un nouveau record d'état de l'art sur nuScenes avec un score de 63,1 % NDS.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp