R-Pred : Prédiction du mouvement en deux étapes par raffinement de trajectoire basé sur une attention par requête en tube

Prédire le mouvement futur des agents dynamiques est d'une importance capitale pour assurer la sécurité et évaluer les risques dans la planification du mouvement des robots autonomes. Dans cette étude, nous proposons une méthode de prédiction du mouvement en deux étapes, appelée R-Pred, conçue pour exploiter efficacement à la fois le contexte scénique et le contexte d’interaction grâce à une chaîne composée d’un réseau de proposition initiale de trajectoire et d’un réseau de raffinement de trajectoire. Le réseau de proposition initiale génère M propositions de trajectoire correspondant aux M modes de la distribution future de la trajectoire. Le réseau de raffinement améliore chacune des M propositions à l’aide de deux mécanismes : 1) une attention scénique par requête en tube (TQSA) et 2) une attention d’interaction au niveau des propositions (PIA). La TQSA utilise des requêtes en tube pour agréger des caractéristiques locales du contexte scénique, extraites à partir des régions proches des trajectoires d’intérêt. La PIA renforce davantage les propositions de trajectoire en modélisant les interactions entre agents à l’aide d’un groupe de propositions sélectionnées en fonction de leur distance par rapport aux agents voisins. Nos expériences menées sur les jeux de données Argoverse et nuScenes démontrent que le réseau de raffinement proposé apporte des améliorations significatives par rapport à la méthode de référence à une seule étape, et que R-Pred atteint des performances de pointe dans certaines catégories des benchmarks.