HyperAI
vor einem Tag

PRIX: Planen aus rohen Pixeln lernen für End-to-End-Autonome Fahrt

Maciej K. Wozniak; Lianhang Liu; Yixi Cai; Patric Jensfelt
PRIX: Planen aus rohen Pixeln lernen für End-to-End-Autonome Fahrt
Abstract

Obwohl end-to-end-Modelle für autonomes Fahren vielversprechende Ergebnisse zeigen, werden ihre praktische Anwendung oft durch große Modellgrößen, die Abhängigkeit von teuren LiDAR-Sensoren und rechenintensiven BEV-(Bird's Eye View)-Merkmalsdarstellungen behindert. Dies begrenzt ihre Skalierbarkeit, insbesondere für Massenmarkt-Fahrzeuge, die nur mit Kameras ausgestattet sind. Um diese Herausforderungen zu bewältigen, schlagen wir PRIX (Plan from Raw Pixels) vor. Unsere neuartige und effiziente end-to-end-Fahrzeugsteuerungsarchitektur arbeitet ausschließlich mit Kameradaten, verzichtet auf eine explizite BEV-Darstellung und benötigt keine LiDAR-Sensoren. PRIX nutzt einen visuellen Merkmalsextraktor in Kombination mit einem generativen Planungsmodul, um sichere Trajektorien direkt aus Rohpixel-Eingaben vorherzusagen. Ein zentraler Bestandteil unserer Architektur ist der Context-aware Recalibration Transformer (CaRT), ein neuartiges Modul, das entwickelt wurde, um mehrstufige visuelle Merkmale effektiv zu verbessern und so eine robusterere Planung zu ermöglichen. Wir zeigen in umfassenden Experimenten, dass PRIX auf den NavSim- und nuScenes-Benchmarks eine state-of-the-art-Performance erreicht und die Fähigkeiten von größeren, multimodalen Diffusionsplanungsmodellen erreicht, während es in Bezug auf Inferenzgeschwindigkeit und Modellgröße deutlich effizienter ist. Dies macht es zu einer praktikablen Lösung für die reale Anwendung. Unsere Arbeit ist open-source, und der Code ist unter https://maxiuw.github.io/prix verfügbar.