HiP-AD: Hierarchisches und mehrgranuläres Planen mit verformbarem Attention für autonome Fahrzeuge in einem einzigen Decoder

Obwohl die Technologien des end-to-end-Autonomen Fahrens (E2E-AD) in den letzten Jahren erhebliche Fortschritte erzielt haben, bleibt ihre Leistung bei der geschlossenen Schleife Evaluation unzureichend. Das Potenzial, die Planung in der Abfragedesign- und Interaktionsphase auszunutzen, ist bisher noch nicht vollständig erschlossen worden. In diesem Paper stellen wir eine mehrschalige Planungsabfrage-Repräsentation vor, die heterogene Wegpunkte integriert – darunter räumliche, zeitliche und fahrstilbasierte Wegpunkte – über verschiedene Abtastmuster hinweg. Diese Repräsentation liefert zusätzliche Supervision für die Trajektorienvorhersage und verbessert die präzise geschlossene Schleifensteuerung des eigenen Fahrzeugs. Zudem nutzen wir explizit die geometrischen Eigenschaften von Planungstrajektorien, um mithilfe von deformierbarer Aufmerksamkeit effektiv relevante Bildmerkmale basierend auf physischen Positionen abzurufen. Durch die Kombination dieser Strategien schlagen wir einen neuen end-to-end-Autonomen-Fahranwendungsrahmen vor, den wir HiP-AD nennen, der gleichzeitig Wahrnehmung, Vorhersage und Planung in einem einheitlichen Decoder durchführt. HiP-AD ermöglicht eine umfassende Interaktion, indem Planungsabfragen iterativ mit Wahrnehmungsabfragen im Bird’s-Eye-View (BEV)-Raum interagieren und dabei dynamisch Bildmerkmale aus perspektivischen Ansichten extrahieren. Experimente zeigen, dass HiP-AD alle bestehenden end-to-end-Autonomen-Fahranwendungen auf der geschlossenen Schleife-Benchmark Bench2Drive übertrifft und zudem konkurrenzfähige Leistung auf dem realen Datensatz nuScenes erzielt.