BEVFormer : Apprentissage de la représentation en vue d'oiseau à partir d'images multicaméra via des transformateurs spatio-temporels

Les tâches de perception visuelle 3D, telles que la détection 3D et la segmentation de cartes basées sur des images multicaméras, sont essentielles pour les systèmes de conduite autonome. Dans ce travail, nous présentons un nouveau cadre nommé BEVFormer, qui apprend des représentations unifiées en vue bird's-eye (BEV) à l'aide de transformateurs spatio-temporels pour soutenir plusieurs tâches de perception dans la conduite autonome. En résumé, BEVFormer exploite à la fois les informations spatiales et temporelles en interagissant avec l'espace spatial et temporel grâce à des requêtes BEV prédéfinies en forme de grille. Pour agréger les informations spatiales, nous avons conçu une attention croisée spatiale où chaque requête BEV extrait les caractéristiques spatiales des régions d'intérêt à travers différentes vues caméra. Quant aux informations temporelles, nous proposons une attention auto-temporelle pour fusionner récurrentement les informations BEV historiques. Notre approche atteint le nouveau meilleur niveau d'état de l'art avec 56,9 % en termes de métrique NDS sur l'ensemble \texttt{test} nuScenes, soit 9,0 points de plus que le meilleur résultat précédent et comparable aux performances des baselines basées sur LiDAR. Nous montrons également que BEVFormer améliore considérablement la précision de l'estimation de la vitesse et le rappel des objets dans des conditions de faible visibilité. Le code est disponible à l'adresse \url{https://github.com/zhiqi-li/BEVFormer}.