il y a 16 jours

Entraînement amélioré temporellement d'un détecteur 3D multi-vue par prédiction d'objets historiques

Zhuofan Zong, Dongzhi Jiang, Guanglu Song, Zeyue Xue, Jingyong Su, Hongsheng Li, Yu Liu

Résumé

Dans cet article, nous proposons un nouveau paradigme, nommé Prédiction d'Objets Historiques (HoP), pour la détection 3D multi-vue, afin d’exploiter de manière plus efficace les informations temporelles. L’approche HoP est simple : étant donné un instant présent t, nous générons une caractéristique pseudo Bird’s-Eye View (BEV) à l’instant t−k à partir des trames adjacentes, puis utilisons cette caractéristique pour prédire l’ensemble d’objets à l’instant t−k. Cette méthode s’inspire de l’observation selon laquelle forcer le détecteur à capturer à la fois la localisation spatiale et le mouvement temporel des objets aux instants historiques permet d’améliorer l’apprentissage des caractéristiques BEV. Premièrement, nous concevons soigneusement des décodeurs temporels à court et à long terme, capables de générer la caractéristique pseudo BEV à l’instant t−k sans recourir aux images correspondantes des caméras. Deuxièmement, un décodeur d’objets supplémentaire est intégré de manière flexible pour prédire les cibles d’objets à partir de la caractéristique BEV pseudo générée. Notons que nous n’appliquons HoP qu’en phase d’entraînement, ce qui garantit que la méthode proposée n’introduit aucune surcharge computationnelle en phase d’inférence. En tant qu’approche plug-and-play, HoP peut être facilement intégrée aux cadres d’architecture d’état de l’art basés sur BEV, tels que BEVFormer et la série BEVDet. En outre, l’approche HoP complémentaire s’avère compatible avec les méthodes temporelles couramment utilisées, conduisant à des gains significatifs en performance. Des expériences étendues ont été menées pour évaluer l’efficacité de HoP sur le jeu de données nuScenes. Nous avons sélectionné des méthodes représentatives, notamment BEVFormer et BEVDet4D-Depth, pour évaluer notre approche. De manière surprenante, HoP atteint 68,5 % de NDS et 62,4 % de mAP avec un ViT-L sur le test nuScenes, surpassant tous les détecteurs 3D présents au classement officiel. Le code source sera disponible à l’adresse suivante : https://github.com/Sense-X/HoP.