Social-BiGAT: Multimodale Trajektorienprognose mit Bicycle-GAN und Graph-Attention-Netzwerken

Die Vorhersage zukünftiger Trajektorien mehrerer interagierender Akteure in einer Szene ist zu einem zunehmend wichtigen Problem für verschiedene Anwendungen geworden, die von der Steuerung autonomer Fahrzeuge und sozialer Roboter bis hin zur Sicherheit und Überwachung reichen. Dieses Problem wird durch die Anwesenheit sozialer Interaktionen zwischen Menschen und deren physischer Interaktion mit der Szene verkompliziert. Obwohl die vorhandene Literatur einige dieser Hinweise untersucht hat, wurde die multimodale Natur jeder zukünftigen Trajektorie eines Menschen hauptsächlich vernachlässigt. In diesem Artikel stellen wir Social-BiGAT vor, ein graphbasiertes generatives adversariales Netzwerk (GAN), das realistische, multimodale Trajektorienvorhersagen erzeugt, indem es die sozialen Interaktionen von Fußgängern in einer Szene besser modelliert. Unsere Methode basiert auf einem Graph-Attention-Netzwerk (GAT), das zuverlässige Merkmalsrepräsentationen lernt, die die sozialen Interaktionen zwischen den Menschen in der Szene kodieren, sowie auf einer rekurrenten Encoder-Decoder-Architektur, die adversarial trainiert wird, um auf Basis dieser Merkmale die Pfade der Menschen vorherzusagen. Wir berücksichtigen explizit die multimodale Natur des Vorhersageproblems, indem wir eine umkehrbare Transformation zwischen jeder Szene und ihrem latente Noise-Vektor bilden, wie es im Bicycle-GAN der Fall ist. Wir zeigen, dass unser Framework im Vergleich zu mehreren Baselines bei bestehenden Trajektorienprognosebenchmarks Spitzenleistungen erzielt.