HyperAIHyperAI
vor 2 Monaten

PETRv2: Ein einheitliches Framework für die 3D-Wahrnehmung aus Multikamera-Bildern

Liu, Yingfei ; Yan, Junjie ; Jia, Fan ; Li, Shuailin ; Gao, Aqi ; Wang, Tiancai ; Zhang, Xiangyu ; Sun, Jian
PETRv2: Ein einheitliches Framework für die 3D-Wahrnehmung aus Multikamera-Bildern
Abstract

In dieser Arbeit schlagen wir PETRv2 vor, ein einheitliches Framework für die 3D-Wahrnehmung aus mehreren Kameraperspektiven. Aufbauend auf PETR untersucht PETRv2 die Effektivität der zeitlichen Modellierung, die temporale Informationen früherer Frames nutzt, um die 3D-Objekterkennung zu verbessern. Genauer gesagt erweitern wir das 3D-Positionsembedding (3D PE) in PETR für die zeitliche Modellierung. Das 3D PE erreicht eine zeitliche Ausrichtung der Objektpositionen in verschiedenen Frames. Ein feature-gesteuerter Positionscodierer wird zudem eingeführt, um die Datenanpassungsfähigkeit des 3D PE zu erhöhen. Um das Multi-Task-Lernen (z.B. BEV-Segmentierung und 3D-Fahrbahnerkennung) zu unterstützen, bietet PETRv2 eine einfache aber effektive Lösung durch die Einführung von taskspezifischen Abfragen, die unter verschiedenen Räumen initialisiert werden. PETRv2 erzielt den aktuellen Stand der Technik in Bezug auf 3D-Objekterkennung, BEV-Segmentierung und 3D-Fahrbahnerkennung. Eine detaillierte Robustheitsanalyse des PETR-Frameworks wird ebenfalls durchgeführt. Wir hoffen, dass PETRv2 als starke Baseline für die 3D-Wahrnehmung dienen kann. Der Quellcode ist unter \url{https://github.com/megvii-research/PETR} verfügbar.

PETRv2: Ein einheitliches Framework für die 3D-Wahrnehmung aus Multikamera-Bildern | Neueste Forschungsarbeiten | HyperAI