SoPhie : Un GAN attentif pour prédire des trajectoires conformes aux contraintes sociales et physiques

Ce document aborde le problème de la prédiction des trajectoires pour plusieurs agents interactifs dans une scène, étape cruciale pour de nombreuses plateformes autonomes telles que les voitures autonomes et les robots sociaux. Nous présentons \textit{SoPhie}, un cadre interprétable basé sur un Réseau Génératif Adversarial (GAN) qui exploite deux sources d'information : l'historique des trajectoires de tous les agents dans la scène et les informations contextuelles de la scène à partir d'images. Pour prédire une trajectoire future pour un agent, il est nécessaire d'utiliser à la fois des informations physiques et sociales. Les travaux précédents n'ont pas réussi à modéliser conjointement les interactions physiques et sociales. Notre approche combine un mécanisme d'attention sociale avec une attention physique, ce qui aide le modèle à apprendre où regarder dans une grande scène et à extraire les parties les plus pertinentes de l'image en relation avec la trajectoire. Par ailleurs, le composant d'attention sociale agrège les informations provenant des différentes interactions entre agents et extrait les informations de trajectoire les plus importantes des voisins environnants. \textit{SoPhie} utilise également le GAN pour générer des échantillons plus réalistes et capturer la nature incertaine des futures trajectoires en modélisant leur distribution. Tous ces mécanismes permettent à notre approche de prédire des trajectoires socialement et physiquement plausibles pour les agents et d'atteindre des performances de pointe sur plusieurs différents benchmarks de prévision de trajectoires.