DESIRE: Fernzukunftsvorhersage in dynamischen Szenen mit interagierenden Agenten

Wir stellen einen tiefen stochastischen IOC-RNN-Encoder-Decoder-Framework vor, namens DESIRE, für die Aufgabe der Zukunftsvorhersage mehrerer interagierender Agenten in dynamischen Szenen. DESIRE kann zukünftige Positionen von Objekten in verschiedenen Szenen effektiv vorhersagen, indem es 1) die multimodale Natur der Zukunftsvorhersage berücksichtigt (d.h., bei demselben Kontext kann sich die Zukunft variieren), 2) potenzielle zukünftige Ausgänge voraussieht und darauf basierend eine strategische Vorhersage trifft, und 3) nicht nur aus der Vergangenheitsbewegungsgeschichte, sondern auch aus dem Szenenkontext sowie den Interaktionen zwischen den Agenten argumentiert. DESIRE erreicht dies in einem einzigen end-to-end trainierbaren neuronalen Netzwerkmodell, wobei es rechnerisch effizient ist. Das Modell erzeugt zunächst eine vielfältige Menge hypothetischer zukünftiger Vorhersagebeispiele durch den Einsatz eines bedingten Variational Autoencoders, die dann durch das nachfolgende RNN-Bewertungsregressionsmodul bewertet und verfeinert werden. Die Beispiele werden anhand akkumulierter zukünftiger Belohnungen bewertet, was bessere langfristige strategische Entscheidungen ermöglicht, ähnlich wie bei IOC-Frameworks. Ein RNN-Szenenkontextfusionmodul erfasst gemeinsam die Bewegungsgeschichten der Vergangenheit, den semantischen Szenenkontext und die Interaktionen zwischen mehreren Agenten. Ein Feedbackmechanismus iteriert über das Ranking und die Verfeinerung, um die Vorhersagegenauigkeit weiter zu verbessern. Wir evaluieren unser Modell anhand zweier öffentlich zugänglicher Datensätze: KITTI und Stanford Drone Dataset. Unsere Experimente zeigen, dass das vorgeschlagene Modell im Vergleich zu anderen Baseline-Methoden die Vorhersagegenauigkeit erheblich verbessert.