HyperAIHyperAI

Command Palette

Search for a command to run...

LATR: 3D-Lane-Erkennung aus monokularen Bildern mit Transformer

J Moon

Zusammenfassung

Die 3D-Spurerkennung aus monokularen Bildern ist eine grundlegende, aber herausfordernde Aufgabe im autonomen Fahren. Neueste Fortschritte basieren hauptsächlich auf strukturellen 3D-Ersatzdaten (z.B. Vogelperspektive), die aus frontalen Bildmerkmalen und Kameraparametern erstellt werden. Allerdings führt die Tiefenunsicherheit in monokularen Bildern unvermeidlich zu Verschiebungen zwischen der konstruierten Ersatzmerkmalskarte und dem Originalbild, was eine große Herausforderung für eine präzise Spurerkennung darstellt. Um dieses Problem zu lösen, stellen wir ein neues LATR-Modell vor, einen end-to-end 3D-Spurerkennungsansatz, der 3D-bewusste frontale Merkmale ohne transformierte Sichtdarstellung verwendet. Insbesondere erkennt LATR 3D-Spuren durch Kreuzaufmerksamkeit auf Basis von Abfrage- und Schlüssel-Wertpaaren, die mit unserem spurbewussten Abfragegenerator und dynamischer 3D-Bodenpositionsembedding erstellt werden. Einerseits wird jede Abfrage auf der Grundlage von 2D-spurbewussten Merkmalen generiert und verwendet eine hybride Embeddingmethode zur Verbesserung der Spurinformation. Andererseits wird 3D-Rauminformation als positionales Embedding aus einer schrittweise aktualisierten 3D-Bodenebene eingeführt. LATR übertrifft die bisher besten Methoden bei sowohl synthetischen Apollo-Daten als auch realistischen OpenLane- und ONCE-3DLanes-Datensätzen um erhebliche Margen (z.B. ein Anstieg um 11,4 Punkte im F1-Score bei OpenLane). Der Quellcode wird unter https://github.com/JMoonr/LATR veröffentlicht.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
LATR: 3D-Lane-Erkennung aus monokularen Bildern mit Transformer | Paper | HyperAI