Das Lernen der Vorhersage von 3D-Spurform und Kameraposition aus einem einzelnen Bild mittels geometrischer Restriktionen

Die Erkennung von 3D-Spurmarkierungen durch die Kamera ist ein aufstrebendes Problem für autonome Fahrzeuge. Bei dieser Aufgabe ist die korrekte Kameraposition der Schlüssel zur Generierung präziser Spurmarkierungen, die es ermöglichen, eine perspektivische Ansichtsbild in eine Top-Down-Ansicht zu transformieren. Durch diese Transformation können wir die perspektivischen Effekte eliminieren, sodass 3D-Spurmarkierungen ähnlich aussehen und mit Polynomen niedriger Ordnung genau angepasst werden können. Allerdings basieren gängige 3D-Spurmarkierungserkennungsverfahren auf perfekten Kamerapositionen, die von anderen Sensoren bereitgestellt werden, was teuer ist und Probleme bei der Kalibrierung mehrerer Sensoren verursacht. Um dieses Problem zu überwinden, schlagen wir vor, 3D-Spurmarkierungen durch Schätzung der Kameraposition aus einem einzelnen Bild mit einem zweistufigen Framework vorherzusagen. Der erste Stufenziel besteht darin, die Kamerapositionsaufgabe aus perspektivischen Bildern zu lösen. Um die Positionsschätzung zu verbessern, führen wir eine zusätzliche 3D-Spurmarkierungsaufgabe und geometrische Einschränkungen ein, um von dem Mehrfachaufgabenlernen (Multi-task Learning) zu profitieren. Dies erhöht die Konsistenzen zwischen 3D und 2D sowie die Kompatibilität in den beiden genannten Aufgaben. Der zweite Stufenziel richtet sich an die 3D-Spurmarkierungsaufgabe. Es nutzt die vorher geschätzte Position, um Top-Down-Bilder zu generieren, die spurmarkierungsähnliche Darstellungen ohne Distanzverzerrung enthalten, um präzise 3D-Spurmarkierungen vorherzusagen.Experimente zeigen, dass unsere Methode ohne Ground-Truth-Kameraposition den Stand der Technik übertreffen kann und dabei über die wenigsten Parameter und Berechnungen verfügt. Die Quellcode ist unter https://github.com/liuruijin17/CLGo verfügbar.