SimAug: Lernen robuster Darstellungen aus Simulation für die Trajektorienvorhersage

Diese Arbeit untersucht das Problem der Vorhersage zukünftiger Trajektorien von Personen in bisher unbekannten Kameraszenarien und Blickwinkeln. Wir adressieren dieses Problem im realdatenfreien Setting, bei dem das Modell ausschließlich auf 3D-Simulationsdaten trainiert wird und anschließend ohne weitere Anpassung auf einer Vielzahl realer Kameras eingesetzt werden kann. Wir stellen einen neuartigen Ansatz vor, um robuste Repräsentationen zu lernen, indem die Simulationsdaten durch Augmentierung erweitert werden, sodass die Repräsentationen besser auf unbekannte reale Testdaten generalisieren. Der zentrale Ansatz besteht darin, die Merkmale der anspruchsvollsten Kameraansicht mit den adversarialen Merkmalen der ursprünglichen Ansicht zu kombinieren. Wir bezeichnen unseren Ansatz als SimAug. Wir zeigen, dass SimAug auf drei realen Benchmark-Datensätzen herausragende Ergebnisse erzielt, wenn überhaupt keine realen Trainingsdaten verwendet werden, und state-of-the-art-Leistungen sowohl im Stanford Drone-Datensatz als auch im VIRAT/ActEV-Datensatz erreicht, wenn in-domain Trainingsdaten zur Verfügung stehen.