Dreiperspektivische Ansicht für visionbasierte 3D semantische Besetzungsprognose

Moderne Methoden für wahrnehmungsorientiertes autonomes Fahren verwenden weitgehend die Darstellung aus Vogelperspektive (BEV) zur Beschreibung einer 3D-Szene. Trotz ihrer besseren Effizienz im Vergleich zur Voxel-Darstellung hat sie Schwierigkeiten, die feingranulare 3D-Struktur einer Szene mit einer einzelnen Ebene zu beschreiben. Um dieses Problem zu lösen, schlagen wir eine dreiperspektivische Darstellung (TPV) vor, die BEV mit zwei zusätzlichen senkrechten Ebenen ergänzt. Wir modellieren jeden Punkt im 3D-Raum durch die Summe seiner projizierten Merkmale auf den drei Ebenen. Um Bildmerkmale in den 3D-TPV-Raum zu übertragen, schlagen wir einen transformerbasierten TPV-Codierer (TPVFormer) vor, um die TPV-Merkmale effektiv zu gewinnen. Wir nutzen das Aufmerksamkeitsmechanismus, um die Bildmerkmale, die jeder Anfrage in jeder TPV-Ebene entsprechen, zu aggregieren. Experimente zeigen, dass unser Modell, das mit spärlicher Überwachung trainiert wurde, die semantische Besetzung aller Voxel effektiv vorhersagt. Zum ersten Mal weisen wir nach, dass ausschließlich mit Kameraeingaben vergleichbare Leistungen wie bei LiDAR-basierten Methoden bei der LiDAR-Segmentierungsaufgabe in nuScenes erzielt werden können. Code: https://github.com/wzzheng/TPVFormer.