R-Pred: Zwei-Stufen-Bewegungsvorhersage mittels tubenbasiertem Abfragungs-Attention-basiertem Trajektorienverfeinerungsansatz

Die Vorhersage der zukünftigen Bewegung dynamischer Agenten ist von entscheidender Bedeutung für die Sicherheit und die Risikobewertung im Bewegungsplanungsprozess autonomer Roboter. In dieser Studie stellen wir eine zweistufige Bewegungsvorhersagemethode namens R-Pred vor, die darauf abzielt, sowohl die Szenen- als auch die Interaktionskontextinformation effektiv zu nutzen, indem sie eine Kaskade aus einem initialen Trajektorienvorschlagsnetzwerk und einem Trajektorienverfeinerungsnetzwerk verwendet. Das Netzwerk zur initialen Trajektorienvoraussage erzeugt M Trajektorienvorschläge, die den M Modi der zukünftigen Trajektorienverteilung entsprechen. Das Trajektorienverfeinerungsnetzwerk verbessert jeweils jeden der M Vorschläge mithilfe zweier Mechanismen: 1) tube-query Scene Attention (TQSA) und 2) Proposal-level Interaction Attention (PIA). TQSA nutzt Tube-Abfragen, um lokale Szenenkontextmerkmale zu aggregieren, die aus der Umgebung der interessierenden Trajektorienvorschläge abgeleitet wurden. PIA verstärkt die Trajektorienvorschläge weiterhin, indem es Interaktionen zwischen Agenten modelliert, wobei eine Gruppe von Trajektorienvorschlägen ausgewählt wird, die aufgrund ihrer Distanz zu benachbarten Agenten relevant sind. Experimente, die auf den Datensätzen Argoverse und nuScenes durchgeführt wurden, zeigen, dass das vorgeschlagene Verfeinerungsnetzwerk im Vergleich zu einem einstufigen Baseline erhebliche Leistungsverbesserungen erzielt, und dass R-Pred in bestimmten Kategorien der Benchmarks eine state-of-the-art-Leistung erreicht.