V-DETR: DETR mit knotenbezogener Positions-Kodierung für die 3D-Objekterkennung

Wir stellen einen hochleistungsfähigen 3D-Objektdetektor für Punktwolken vor, der auf dem DETR-Framework basiert. Vorherige Ansätze erzielen stets suboptimale Ergebnisse, da sie nicht in der Lage sind, präzise induktive Vorkenntnisse aus der begrenzten Skalierung der Trainingsdaten zu lernen. Insbesondere neigen die Queries dazu, auf Punkte zu fokussieren, die weit entfernt von den Zielobjekten liegen, was das Lokalitätsprinzip im Objektdetektionsprozess verletzt. Um diesen Limitationen zu begegnen, führen wir eine neuartige Methode zur 3D-Vertex-Relativen Positionscodierung (3DV-RPE) ein, die für jeden Punkt eine Positions-Codierung basierend auf seiner relativen Position zu den durch die Queries in jeder Dekodierschicht vorhergesagten 3D-Boxen berechnet. Dadurch wird dem Modell klare Information bereitgestellt, um sich auf Punkte in der Nähe der Objekte zu konzentrieren, was dem Prinzip der Lokalität entspricht. Zudem verbessern wir die Gesamtpipeline systematisch aus verschiedenen Perspektiven, beispielsweise durch eine datenbasierte Normalisierung, die auf unserem Verständnis der Aufgabe beruht. Wir erzielen herausragende Ergebnisse auf dem anspruchsvollen ScanNetV2-Benchmark und erreichen im Vergleich zu vorherigen 3DETR-Modellen signifikante Verbesserungen bei $\rm{AP}{25}$/$\rm{AP}{50}$ von 65,0 %/47,0 % auf 77,8 %/66,0 %. Darüber hinaus etabliert unsere Methode einen neuen Rekord sowohl auf den ScanNetV2- als auch auf den SUN RGB-D-Datensätzen. Der Quellcode wird unter http://github.com/yichaoshen-MS/V-DETR veröffentlicht.