SimAug : Apprentissage de représentations robustes à partir de la simulation pour la prédiction de trajectoires

Cet article étudie le problème de la prédiction des trajectoires futures des individus dans des caméras inconnues, dans des scénarios et des points de vue nouveaux. Nous abordons ce problème dans un cadre sans données réelles, où le modèle est entraîné uniquement sur des données de simulation 3D et peut être appliqué directement à une large variété de caméras réelles. Nous proposons une nouvelle approche visant à apprendre des représentations robustes en enrichissant les données d'entraînement de simulation, afin que ces représentations se généralisent mieux aux données réelles non vues lors des tests. L'idée centrale consiste à combiner la caractéristique de la vue de caméra la plus difficile avec la caractéristique adversaire de la vue d'origine. Nous désignons notre méthode sous le nom de $ \textit{SimAug} $. Nous démontrons que $ \textit{SimAug} $ obtient des résultats prometteurs sur trois benchmarks réels en utilisant zéro donnée réelle pour l'entraînement, et des performances de pointe sur les jeux de données Stanford Drone et VIRAT/ActEV lorsqu'un entraînement sur données du domaine est utilisé. Le code et les modèles sont disponibles à l'adresse suivante : https://next.cs.cmu.edu/simaug