Réseaux Transformer pour la prévision de trajectoires

Les derniers succès en prévision du mouvement des personnes reposent principalement sur des modèles LSTM, et la majeure partie des progrès récents a été obtenue en modélisant les interactions sociales entre individus ainsi que les interactions entre les personnes et leur environnement. Nous remettons en question l’utilisation des modèles LSTM et proposons une approche novatrice basée sur les réseaux Transformer pour la prévision de trajectoires. Il s’agit d’un changement fondamental par rapport au traitement séquentiel pas à pas des LSTM, vers des mécanismes de mémoire entièrement basés sur l’attention, propres aux Transformers. Plus précisément, nous considérons à la fois le modèle Transformer original (TF) et le modèle bidirectionnel plus puissant BERT, actuellement état-de-l’art dans toutes les tâches de traitement du langage naturel. Nos Transformers proposés permettent de prédire les trajectoires des individus présents dans une scène. Ces modèles sont « simples » dans la mesure où chaque personne est modélisée indépendamment, sans termes complexes décrivant les interactions humain-humain ou humain-scène. En particulier, le modèle TF, sans ajouts supplémentaires, obtient le meilleur score sur le plus grand et le plus exigeant benchmark de prévision de trajectoires, TrajNet. De plus, son extension permettant de prédire plusieurs trajectoires futures plausibles atteint des performances comparables aux méthodes plus sophistiquées sur les 5 jeux de données ETH + UCY. Enfin, nous démontrons que les Transformers peuvent gérer efficacement les observations manquantes, une situation fréquente dans les données réelles provenant de capteurs. Le code est disponible à l’adresse suivante : https://github.com/FGiuliari/Trajectory-Transformer.