Progressive Pretext Task Learning für die Vorhersage menschlicher Trajektorien

Die Vorhersage menschlicher Trajektorien ist eine praktische Aufgabe, die darauf abzielt, die zukünftigen Positionen von Fußgängern auf Straßen vorherzusagen und typischerweise alle zeitlichen Bereiche von kurzfristig bis langfristig innerhalb einer Trajektorie abdeckt. Bisherige Ansätze versuchen, die gesamte Trajektorienvorhersage mit einem einzigen, einheitlichen Trainingsparadigma zu lösen, wobei jedoch der Unterschied zwischen kurzfristigen und langfristigen Dynamiken menschlicher Bewegungen vernachlässigt wird. Um diese Einschränkung zu überwinden, stellen wir einen neuartigen Progressive Pretext Task (PPT)-Lernrahmen vor, der die Fähigkeit des Modells schrittweise verbessert, sowohl kurzfristige Dynamiken als auch langfristige Abhängigkeiten für die abschließende Vorhersage der gesamten Trajektorie zu erfassen. Konkret entwerfen wir in dem PPT-Rahmen drei Trainingsstufen. In der ersten Stufe lernt das Modell, die kurzfristigen Dynamiken durch eine schrittweise Vorhersage der nächsten Position zu verstehen. In der zweiten Stufe wird das Modell weiter verbessert, um langfristige Abhängigkeiten durch eine Zielortvorhersage zu erfassen. In der letzten Stufe zielt das Modell darauf ab, die gesamte zukünftige Trajektorie vorherzusagen, wobei es das Wissen aus den vorherigen Stufen optimal nutzt. Um das Verlernen von Wissen zu verringern, wenden wir zudem eine cross-task Knowledge Distillation an. Darüber hinaus entwickeln wir einen auf Transformer basierenden Trajektorienprädiktor, der eine hocheffiziente zweistufige Schlussfolgerung ermöglicht, indem er eine zielortgetriebene Vorhersagestrategie mit einer Reihe lernbarer Prompt-Embeddings integriert. Umfangreiche Experimente auf etablierten Benchmarks zeigen, dass unser vorgeschlagener Ansatz eine state-of-the-art-Leistung mit hoher Effizienz erzielt. Der Quellcode ist unter https://github.com/iSEE-Laboratory/PPT verfügbar.