Social NCE: Kontrastives Lernen sozialbewusster Bewegungsrepräsentationen

Die Lernung sozial-awareer Bewegungsrepräsentationen liegt im Kern neuer Fortschritte bei multi-agent-Problemstellungen, wie der Vorhersage menschlicher Bewegungen oder der Navigation von Robotern in Menschenmengen. Trotz vielversprechender Entwicklungen leiden bestehende mit neuronalen Netzen erlernte Darstellungen weiterhin unter Schwierigkeiten bei der Generalisierung in geschlossenen Schleifen-Vorhersagen (z. B. kollidierende Trajektorien). Dieses Problem ergibt sich weitgehend aus der nicht-i.i.d.-Natur der sequenziellen Vorhersage in Kombination mit schlecht verteilten Trainingsdaten. Intuitiv ist es für Lernalgorithmen schwierig, das Konzept von „negativen“ Beispielen – wie Kollisionen – zu erfassen, wenn die Trainingsdaten ausschließlich aus menschlichem Verhalten in sicheren Umgebungen stammen, also aus „positiven“ Beispielen. In dieser Arbeit zielen wir darauf ab, dieses Problem durch die explizite Modellierung negativer Beispiele mittels Selbstüberwachung zu lösen: (i) wir führen eine soziale kontrastive Verlustfunktion ein, die die extrahierten Bewegungsrepräsentationen reguliert, indem sie echte positive Ereignisse von synthetisch generierten negativen Ereignissen unterscheidet; (ii) wir konstruieren informative negative Beispiele auf Basis unseres vorherigen Wissens über seltene, jedoch gefährliche Situationen. Unsere Methode reduziert die Kollisionsraten bei aktuellen Verfahren zur Trajektorienvorhersage, Verhaltensklonung und Verstärkungslernen erheblich und übertrifft state-of-the-art-Methoden auf mehreren Benchmark-Datenmengen. Unser Code ist unter https://github.com/vita-epfl/social-nce verfügbar.