Ein Doppeltaktiges Cross-View Transformer-Netzwerk für die Einheitliche Schätzung von Straßenlayouts und die 3D-Objekterkennung in der Vogelperspektive

Die Vogelperspektive (Bird's-Eye-View, BEV)-Darstellung ermöglicht ein robustes Lernen mehrerer Aufgaben für autonomes Fahren, darunter die Schätzung des Straßenlayouts und die 3D-Objekterkennung. Aktuelle Methoden zur vereinheitlichten Schätzung des Straßenlayouts und der 3D-Objekterkennung behandeln jedoch selten das Klassenungleichgewicht im Trainingsdatensatz sowie das Mehrklassenlernen, um die Gesamtzahl der benötigten Netze zu reduzieren. Um diese Einschränkungen zu überwinden, schlagen wir ein vereinheitlichtes Modell vor, das von der Transformer-Architektur und dem CycleGAN-Lernrahmen inspiriert ist. Das vorgeschlagene Modell nutzt den Focal Loss und den vorgeschlagenen Dual-Cycle-Loss, um die Leistungsverschlechterung aufgrund des Klassenungleichgewichts im Datensatz zu bewältigen. Darüber hinaus erstellen wir umfangreiche Lernszenarien, um den Einfluss des Mehrklassenlernens bei der Schätzung des Straßenlayouts in verschiedenen Situationen zu untersuchen. Um die Effektivität des vorgeschlagenen Modells und des Lernverfahrens zu verifizieren, führen wir eine gründliche Abstraktionsstudie und einen Vergleich durch. Die Experimentsergebnisse bestätigen die Effektivität unseres Modells; wir erzielen den aktuellen Stand der Technik sowohl in der Schätzung des Straßenlayouts als auch in der 3D-Objekterkennung.