En imaginant l'avenir : Prédiction de trajectoires multi-agents par simulation différentiable

Nous développons un modèle génératif profond basé sur un simulateur entièrement différentiable pour la prédiction de trajectoires multi-agents. Les agents sont modélisés à l’aide de réseaux neuronaux variationnels récurrents conditionnels (CVRNN), qui prennent en entrée une image oiseau (bird’s-eye view) centrée sur l’agent (ego-centric) représentant l’état actuel du monde, et produisent une action composée de direction et d’accélération. Cette action est ensuite utilisée pour déduire l’état suivant de l’agent via un modèle cinématique à bicyclette. L’état complet de la simulation est ensuite rendu de manière différentiable pour chaque agent, permettant ainsi de passer à l’étape temporelle suivante. Nous atteignons des résultats de pointe sur le jeu de données INTERACTION, en utilisant des architectures neuronales standards et une fonction de formation variationnelle classique, tout en générant des prédictions multi-modales réalistes sans recourir à des pertes artificielles spécifiquement conçues pour induire la diversité. Des études d’ablation permettent d’analyser les composants individuels du simulateur, révélant que tant le modèle cinématique à bicyclette que le retour continu d’information provenant de l’image bird’s-eye sont essentiels pour atteindre ce niveau de performance. Nous nommons notre modèle ITRA, pour « Imagining the Road Ahead » (« Imaginer la route à venir »).