Prédiction de distribution de trajectoire en bout à bout basée sur des cartes d'occupation

Dans cet article, nous visons à prédire la distribution de trajectoires futures d’un agent en mouvement dans le monde réel, à partir d’images de scènes sociales et de trajectoires historiques. Toutefois, cette tâche s’avère particulièrement difficile, car la distribution réelle (ground-truth) est inconnue et non observable, tandis qu’un seul échantillon de cette distribution peut être utilisé pour superviser l’apprentissage du modèle, ce qui entraîne facilement un biais. La plupart des travaux récents se concentrent sur la prédiction de trajectoires diversifiées afin de couvrir toutes les modalités de la distribution réelle, mais ils peuvent négliger la précision, accordant ainsi trop de crédit à des prédictions peu réalistes. Pour résoudre ce problème, nous apprenons la distribution en utilisant une entropie croisée symétrique, en adoptant des cartes d’occupation (occupancy grid maps) comme approximation explicite et conforme à la scène de la distribution réelle, ce qui permet de pénaliser efficacement les prédictions peu probables. Plus précisément, nous proposons un cadre de prédiction de distribution de trajectoires multimodales basé sur l’apprentissage par renforcement inverse, qui apprend à planifier via un réseau d’itération de valeur approchée de manière end-to-end. En outre, à partir de la distribution prédite, nous générons un petit ensemble de trajectoires représentatives à l’aide d’un réseau différentiable basé sur le mécanisme d’attention Transformer, dont la capacité à modéliser les relations entre trajectoires s’avère particulièrement utile. Les expériences montrent que notre méthode atteint des performances de pointe sur les jeux de données Stanford Drone et Intersection Drone.