HyperAIHyperAI

Command Palette

Search for a command to run...

Entraînement amélioré temporellement d'un détecteur 3D multi-vue par prédiction d'objets historiques

Zhuofan Zong Dongzhi Jiang Guanglu Song Zeyue Xue Jingyong Su Hongsheng Li Yu Liu

Résumé

Dans cet article, nous proposons un nouveau paradigme, nommé Prédiction d'Objets Historiques (HoP), pour la détection 3D multi-vue, afin d’exploiter de manière plus efficace les informations temporelles. L’approche HoP est simple : étant donné un instant présent t, nous générons une caractéristique pseudo Bird’s-Eye View (BEV) à l’instant t−k à partir des trames adjacentes, puis utilisons cette caractéristique pour prédire l’ensemble d’objets à l’instant t−k. Cette méthode s’inspire de l’observation selon laquelle forcer le détecteur à capturer à la fois la localisation spatiale et le mouvement temporel des objets aux instants historiques permet d’améliorer l’apprentissage des caractéristiques BEV. Premièrement, nous concevons soigneusement des décodeurs temporels à court et à long terme, capables de générer la caractéristique pseudo BEV à l’instant t−k sans recourir aux images correspondantes des caméras. Deuxièmement, un décodeur d’objets supplémentaire est intégré de manière flexible pour prédire les cibles d’objets à partir de la caractéristique BEV pseudo générée. Notons que nous n’appliquons HoP qu’en phase d’entraînement, ce qui garantit que la méthode proposée n’introduit aucune surcharge computationnelle en phase d’inférence. En tant qu’approche plug-and-play, HoP peut être facilement intégrée aux cadres d’architecture d’état de l’art basés sur BEV, tels que BEVFormer et la série BEVDet. En outre, l’approche HoP complémentaire s’avère compatible avec les méthodes temporelles couramment utilisées, conduisant à des gains significatifs en performance. Des expériences étendues ont été menées pour évaluer l’efficacité de HoP sur le jeu de données nuScenes. Nous avons sélectionné des méthodes représentatives, notamment BEVFormer et BEVDet4D-Depth, pour évaluer notre approche. De manière surprenante, HoP atteint 68,5 % de NDS et 62,4 % de mAP avec un ViT-L sur le test nuScenes, surpassant tous les détecteurs 3D présents au classement officiel. Le code source sera disponible à l’adresse suivante : https://github.com/Sense-X/HoP.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp