LATR: 3D-Lane-Erkennung aus monokularen Bildern mit Transformer

Die 3D-Spurerkennung aus monokularen Bildern ist eine grundlegende, aber herausfordernde Aufgabe im autonomen Fahren. Neueste Fortschritte basieren hauptsächlich auf strukturellen 3D-Ersatzdaten (z.B. Vogelperspektive), die aus frontalen Bildmerkmalen und Kameraparametern erstellt werden. Allerdings führt die Tiefenunsicherheit in monokularen Bildern unvermeidlich zu Verschiebungen zwischen der konstruierten Ersatzmerkmalskarte und dem Originalbild, was eine große Herausforderung für eine präzise Spurerkennung darstellt. Um dieses Problem zu lösen, stellen wir ein neues LATR-Modell vor, einen end-to-end 3D-Spurerkennungsansatz, der 3D-bewusste frontale Merkmale ohne transformierte Sichtdarstellung verwendet. Insbesondere erkennt LATR 3D-Spuren durch Kreuzaufmerksamkeit auf Basis von Abfrage- und Schlüssel-Wertpaaren, die mit unserem spurbewussten Abfragegenerator und dynamischer 3D-Bodenpositionsembedding erstellt werden. Einerseits wird jede Abfrage auf der Grundlage von 2D-spurbewussten Merkmalen generiert und verwendet eine hybride Embeddingmethode zur Verbesserung der Spurinformation. Andererseits wird 3D-Rauminformation als positionales Embedding aus einer schrittweise aktualisierten 3D-Bodenebene eingeführt. LATR übertrifft die bisher besten Methoden bei sowohl synthetischen Apollo-Daten als auch realistischen OpenLane- und ONCE-3DLanes-Datensätzen um erhebliche Margen (z.B. ein Anstieg um 11,4 Punkte im F1-Score bei OpenLane). Der Quellcode wird unter https://github.com/JMoonr/LATR veröffentlicht.