Social NCE : Apprentissage contrastif de représentations motionnelles conscientes du contexte social

L’apprentissage de représentations motionnelles conscientes du contexte social constitue un pilier fondamental des avancées récentes dans les problèmes à plusieurs agents, tels que la prévision du mouvement humain ou la navigation robotique en milieu dense. Malgré des progrès prometteurs, les représentations actuelles apprises par réseaux de neurones peinent encore à généraliser dans les prédictions en boucle fermée (par exemple, des trajectoires en collision). Ce problème provient en grande partie de la nature non i.i.d. des prédictions séquentielles, combinée à des données d’entraînement mal réparties. Intuitivement, si les données d’entraînement proviennent uniquement de comportements humains dans des espaces sûrs — c’est-à-dire des exemples « positifs » — il devient difficile pour les algorithmes d’apprentissage de capturer la notion d’« exemples négatifs », tels que les collisions. Dans ce travail, nous visons à résoudre ce problème en modélisant explicitement les exemples négatifs par une approche auto-supervisée : (i) nous proposons une perte contrastive sociale qui régularise la représentation motionnelle extraite en distinguant les événements positifs réels des exemples négatifs synthétiques ; (ii) nous construisons des échantillons négatifs informatifs à partir de nos connaissances préalables sur des situations rares mais dangereuses. Notre méthode réduit significativement les taux de collision des algorithmes récents de prévision de trajectoires, de cloning comportemental et d’apprentissage par renforcement, surpassant les méthodes de pointe sur plusieurs benchmarks. Le code est disponible à l’adresse suivante : https://github.com/vita-epfl/social-nce.