HyperAIHyperAI

Command Palette

Search for a command to run...

Dreiperspektivische Ansicht für visionbasierte 3D semantische Besetzungsprognose

Yuanhui Huang Wenzhao Zheng Yunpeng Zhang Jie Zhou Jiwen Lu

Zusammenfassung

Moderne Methoden für wahrnehmungsorientiertes autonomes Fahren verwenden weitgehend die Darstellung aus Vogelperspektive (BEV) zur Beschreibung einer 3D-Szene. Trotz ihrer besseren Effizienz im Vergleich zur Voxel-Darstellung hat sie Schwierigkeiten, die feingranulare 3D-Struktur einer Szene mit einer einzelnen Ebene zu beschreiben. Um dieses Problem zu lösen, schlagen wir eine dreiperspektivische Darstellung (TPV) vor, die BEV mit zwei zusätzlichen senkrechten Ebenen ergänzt. Wir modellieren jeden Punkt im 3D-Raum durch die Summe seiner projizierten Merkmale auf den drei Ebenen. Um Bildmerkmale in den 3D-TPV-Raum zu übertragen, schlagen wir einen transformerbasierten TPV-Codierer (TPVFormer) vor, um die TPV-Merkmale effektiv zu gewinnen. Wir nutzen das Aufmerksamkeitsmechanismus, um die Bildmerkmale, die jeder Anfrage in jeder TPV-Ebene entsprechen, zu aggregieren. Experimente zeigen, dass unser Modell, das mit spärlicher Überwachung trainiert wurde, die semantische Besetzung aller Voxel effektiv vorhersagt. Zum ersten Mal weisen wir nach, dass ausschließlich mit Kameraeingaben vergleichbare Leistungen wie bei LiDAR-basierten Methoden bei der LiDAR-Segmentierungsaufgabe in nuScenes erzielt werden können. Code: https://github.com/wzzheng/TPVFormer.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp