BEVDet4D : Exploiter les indices temporels dans la détection 3D d'objets à partir de multiples caméras

Les données d'une seule trame contiennent une information finie, ce qui limite les performances des paradigmes existants de détection 3D à base de vision utilisant plusieurs caméras. Pour repousser fondamentalement les limites de performance dans ce domaine, nous proposons un nouveau paradigme, baptisé BEVDet4D, qui étend le cadre scalable BEVDet de l’espace 3D uniquement spatial à l’espace 4D spatio-temporel. Nous améliorons le cadre BEVDet original par quelques modifications mineures, permettant simplement de fusionner les caractéristiques de la trame précédente avec celles de la trame courante. Ainsi, avec un coût computationnel négligeable, BEVDet4D peut exploiter des indices temporels en interrogeant et en comparant deux caractéristiques candidates. Par ailleurs, nous simplifions la tâche de prédiction de vitesse en éliminant les facteurs liés au mouvement propre (ego-motion) et au temps dans la cible d’apprentissage. En conséquence, BEVDet4D, doté d’une excellente capacité de généralisation, réduit l’erreur de vitesse jusqu’à -62,9 %. Cela rend les méthodes basées sur la vision, pour la première fois, comparables à celles fondées sur le LiDAR ou le radar sur ce plan. Sur le benchmark difficile nuScenes, nous établissons un nouveau record de 54,5 % NDS avec la configuration haute performance appelée BEVDet4D-Base, surpassant ainsi la méthode précédemment leader, BEVDet-Base, de +7,3 % NDS. Le code source est mis à disposition publiquement pour une recherche ultérieure à l’adresse suivante : https://github.com/HuangJunJie2017/BEVDet.