Social LSTM: Vorhersage menschlicher Trajektorien in überfüllten Räumen

Menschen navigieren komplexe, dicht besetzte Umgebungen basierend auf sozialen Konventionen: Sie respektieren persönlichen Raum, räumen den Vortritt ein und vermeiden Kollisionen. In unserer Arbeit stellen wir einen datengetriebenen Ansatz vor, um menschliche Interaktionen zu lernen, um zukünftige Bahnen vorherzusagen. Dies unterscheidet sich von herkömmlichen Ansätzen, die handgebaute Funktionen wie „soziale Kräfte“ verwenden. Wir präsentieren ein neues Long Short-Term Memory (LSTM)-Modell, das gleichzeitig mehrere Individuen in einer Szene gemeinsam berücksichtigt. Im Gegensatz zu herkömmlichen LSTMs übertragen wir Informationen zwischen mehreren LSTMs über eine neuartige Pooling-Schicht. Diese Schicht fasst die versteckten Darstellungen der LSTMs zusammen, die den benachbarten Bahnen entsprechen, um Interaktionen innerhalb dieses Nachbarschaftsbereichs zu erfassen. Wir demonstrieren die Leistungsfähigkeit unseres Ansatzes an mehreren öffentlichen Datensätzen. Unser Modell übertrifft bisherige Vorhersagemethoden um mehr als 42 %. Zudem analysieren wir die von unserem Modell vorhergesagten Bahnen, um soziale Verhaltensweisen wie Kollisionsvermeidung und Gruppenbewegung zu zeigen, die unser Modell selbstständig erlernt hat.