Anchor3DLane: Lernen, 3D-Anker für die monokulare 3D-Lanenerkennung zu regressieren

Die monokulare 3D-Spurerkennung ist eine herausfordernde Aufgabe aufgrund des Mangels an Tiefeninformation. Eine weit verbreitete Lösung besteht darin, die Frontansichtsbilder (FV) oder -merkmale zunächst durch inverse Perspektivabbildung (IPM) in den Vogelperspektivenraum (BEV) zu transformieren und dann Spuren aus den BEV-Merkmalen zu erkennen. Allerdings führt die Abhängigkeit der IPM von der Annahme eines ebenen Bodens und der Verlust von Kontextinformationen dazu, dass die Wiederherstellung von 3D-Informationen aus BEV-Darstellungen ungenau ist. Es wurde bereits versucht, auf BEV zu verzichten und 3D-Spuren direkt aus FV-Darstellungen vorherzusagen, jedoch unterliegt diese Methode anderen BEV-basierten Ansätzen hinsichtlich ihrer Leistung aufgrund des Mangels an strukturierten Darstellungen für 3D-Spuren. In dieser Arbeit definieren wir 3D-Spuranker im 3D-Raum und schlagen eine methode ohne BEV vor, die Anchor3DLane genannt wird, um 3D-Spuren direkt aus FV-Darstellungen vorherzusagen. Die 3D-Spuranker werden auf die FV-Merkmale projiziert, um deren Merkmale zu extrahieren, die sowohl gute strukturelle als auch kontextuelle Informationen enthalten, um präzise Vorhersagen zu treffen. Zudem haben wir eine globale Optimierungsmethode entwickelt, die das gleichmäßige Breitenverhältnis zwischen Spuren nutzt, um den lateralen Vorhersagefehler zu reduzieren. Ausführliche Experimente mit drei gängigen Benchmarks für 3D-Spurerkennung zeigen, dass unser Anchor3DLane frühere BEV-basierte Methoden übertrifft und Stand-of-the-Art-Leistungen erzielt. Der Quellcode ist unter folgendem Link verfügbar: https://github.com/tusen-ai/Anchor3DLane.