HyperAIHyperAI
il y a 2 mois

TBP-Former : Apprentissage d'une pyramide temporelle de vue d'oiseau pour la perception et la prédiction conjointes dans la conduite autonome centrée sur la vision

Fang, Shaoheng ; Wang, Zi ; Zhong, Yiqi ; Ge, Junhao ; Chen, Siheng ; Wang, Yanfeng
TBP-Former : Apprentissage d'une pyramide temporelle de vue d'oiseau pour la perception et la prédiction conjointes dans la conduite autonome centrée sur la vision
Résumé

La perception et prédiction centrées sur la vision (PnP) est devenue une tendance émergente dans la recherche sur la conduite autonome. Elle prédit les états futurs des participants à la circulation dans l'environnement environnant à partir d'images RGB brutes. Cependant, il reste un défi majeur de synchroniser les caractéristiques obtenues à partir de vues multiples de caméras et de timestamps en raison des distorsions géométriques inévitables, et d'exploiter davantage ces caractéristiques spatio-temporelles. Pour répondre à ce problème, nous proposons un transformateur pyramidal temporel en vue d'oiseau (TBP-Former) pour la perception et prédiction centrées sur la vision, qui comprend deux conceptions novatrices. Premièrement, un encodeur BEV synchronisé par pose est proposé pour mapper les entrées d'images brutes avec n'importe quelle position de caméra à n'importe quel moment vers un espace BEV partagé et synchronisé, améliorant ainsi la synchronisation spatio-temporelle. Deuxièmement, un transformateur pyramidal spatio-temporel est introduit pour extraire de manière exhaustive des caractéristiques BEV multi-échelles et prédire les états futurs BEV avec le soutien de priorités spatio-temporelles. Des expériences approfondies sur le jeu de données nuScenes montrent que notre cadre proposé surpasse globalement toutes les méthodes actuelles de prédiction basées sur la vision.

TBP-Former : Apprentissage d'une pyramide temporelle de vue d'oiseau pour la perception et la prédiction conjointes dans la conduite autonome centrée sur la vision | Articles de recherche récents | HyperAI