vor 11 Tagen
PETR: Position Embedding Transformation for Multi-View 3D Object Detection
Yingfei Liu, Tiancai Wang, Xiangyu Zhang, Jian Sun

Abstract
In diesem Artikel entwickeln wir die Position-Embedding-Transformation (PETR) für die Multi-View-3D-Objekterkennung. PETR kodiert die räumliche Information dreidimensionaler Koordinaten in Bildmerkmale und erzeugt hierdurch 3D-positionssensible Merkmale. Objekt-Abfragen können diese 3D-positionssensiblen Merkmale wahrnehmen und die end-to-end-Objekterkennung durchführen. PETR erreicht eine state-of-the-art-Leistung (50,4 % NDS und 44,1 % mAP) auf dem standardisierten nuScenes-Datensatz und belegt den ersten Platz in der Benchmark. Es kann als einfacher, aber leistungsfähiger Ausgangspunkt für zukünftige Forschungsarbeiten dienen. Der Quellcode ist unter \url{https://github.com/megvii-research/PETR} verfügbar.