HyperAIHyperAI
vor 11 Tagen

PETR: Position Embedding Transformation for Multi-View 3D Object Detection

Yingfei Liu, Tiancai Wang, Xiangyu Zhang, Jian Sun
PETR: Position Embedding Transformation for Multi-View 3D Object Detection
Abstract

In diesem Artikel entwickeln wir die Position-Embedding-Transformation (PETR) für die Multi-View-3D-Objekterkennung. PETR kodiert die räumliche Information dreidimensionaler Koordinaten in Bildmerkmale und erzeugt hierdurch 3D-positionssensible Merkmale. Objekt-Abfragen können diese 3D-positionssensiblen Merkmale wahrnehmen und die end-to-end-Objekterkennung durchführen. PETR erreicht eine state-of-the-art-Leistung (50,4 % NDS und 44,1 % mAP) auf dem standardisierten nuScenes-Datensatz und belegt den ersten Platz in der Benchmark. Es kann als einfacher, aber leistungsfähiger Ausgangspunkt für zukünftige Forschungsarbeiten dienen. Der Quellcode ist unter \url{https://github.com/megvii-research/PETR} verfügbar.

PETR: Position Embedding Transformation for Multi-View 3D Object Detection | Neueste Forschungsarbeiten | HyperAI