HyperAIHyperAI

Command Palette

Search for a command to run...

PETRv2: Ein einheitliches Framework für die 3D-Wahrnehmung aus Multikamera-Bildern

Yingfei Liu Junjie Yan Fan Jia Shuailin Li Aqi Gao Tiancai Wang* Xiangyu Zhang Jian Sun

Zusammenfassung

In dieser Arbeit schlagen wir PETRv2 vor, ein einheitliches Framework für die 3D-Wahrnehmung aus mehreren Kameraperspektiven. Aufbauend auf PETR untersucht PETRv2 die Effektivität der zeitlichen Modellierung, die temporale Informationen früherer Frames nutzt, um die 3D-Objekterkennung zu verbessern. Genauer gesagt erweitern wir das 3D-Positionsembedding (3D PE) in PETR für die zeitliche Modellierung. Das 3D PE erreicht eine zeitliche Ausrichtung der Objektpositionen in verschiedenen Frames. Ein feature-gesteuerter Positionscodierer wird zudem eingeführt, um die Datenanpassungsfähigkeit des 3D PE zu erhöhen. Um das Multi-Task-Lernen (z.B. BEV-Segmentierung und 3D-Fahrbahnerkennung) zu unterstützen, bietet PETRv2 eine einfache aber effektive Lösung durch die Einführung von taskspezifischen Abfragen, die unter verschiedenen Räumen initialisiert werden. PETRv2 erzielt den aktuellen Stand der Technik in Bezug auf 3D-Objekterkennung, BEV-Segmentierung und 3D-Fahrbahnerkennung. Eine detaillierte Robustheitsanalyse des PETR-Frameworks wird ebenfalls durchgeführt. Wir hoffen, dass PETRv2 als starke Baseline für die 3D-Wahrnehmung dienen kann. Der Quellcode ist unter \url{https://github.com/megvii-research/PETR} verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp