il y a 6 mois

Résumé

Les recherches actuelles se concentrent principalement sur l'amélioration de la précision des détecteurs 3D à base de caméra uniquement (apprenti) grâce au transfert de connaissances provenant de modèles basés sur LiDAR ou multi-modaux (expert). Toutefois, la présence d'un écart de domaine entre les caractéristiques LiDAR et caméra, combinée à l'incompatibilité intrinsèque dans la fusion temporelle, entrave considérablement l'efficacité des améliorations basées sur la distillation pour les apprentis. Inspirés par le succès de la distillation unimodale, nous proposons un modèle expert adapté aux apprentis, qui repose principalement sur les caractéristiques caméra tout en atteignant des performances comparables à celles des modèles multi-modaux. À cette fin, nous introduisons VCD, un cadre visant à améliorer le modèle apprenti à base de caméra uniquement, incluant un expert multi-modale adapté aux apprentis et une supervision de distillation compatible avec la fusion temporelle. L'expert multi-modale VCD-E adopte une architecture identique à celle du modèle apprenti à base de caméra afin de réduire l'écart des caractéristiques, tout en exploitant l'entrée LiDAR comme priori de profondeur pour reconstruire la scène 3D, atteignant ainsi des performances équivalentes à celles d'autres experts multi-modaux hétérogènes. En outre, nous introduisons un module de distillation fine basé sur les trajectoires, visant à corriger individuellement les désalignements de mouvement pour chaque objet de la scène. Grâce à ces améliorations, notre modèle apprenti à base de caméra VCD-A établit un nouveau record d'état de l'art sur nuScenes avec un score de 63,1 % NDS.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Multimodal

Détection D'objets

Estimation De Profondeur

Multimodal

Vision Par Ordinateur

Tâche

Linyan Huang Zhiqi Li Chonghao Sima Wenhai Wang Jingdong Wang Yu Qiao Hongyang Li

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Multimodal

Détection D'objets

Estimation De Profondeur

Multimodal

Vision Par Ordinateur

Tâche

Linyan Huang Zhiqi Li Chonghao Sima Wenhai Wang Jingdong Wang Yu Qiao Hongyang Li

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

Exploitation de compétences multimodales centrées sur la vision pour la détection d'objets 3D

Linyan Huang Zhiqi Li Chonghao Sima Wenhai Wang Jingdong Wang Yu Qiao Hongyang Li

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Exploitation de compétences multimodales centrées sur la vision pour la détection d'objets 3D

Linyan Huang Zhiqi Li Chonghao Sima Wenhai Wang Jingdong Wang Yu Qiao Hongyang Li

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Exploitation de compétences multimodales centrées sur la vision pour la détection d'objets 3D

Linyan Huang Zhiqi Li Chonghao Sima Wenhai Wang Jingdong Wang Yu Qiao Hongyang Li

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters