Ein einheitliches abfragebasiertes Paradigma für das Verständnis von Punktwolken

Die Verarbeitung von 3D-Punktwolken ist eine zentrale Komponente in der autonomen Fahrt und der Robotik. In diesem Artikel stellen wir ein neuartiges Embedding-Querying-Paradigma (EQ-Paradigma) für Aufgaben der 3D-Verarbeitung vor, darunter Detektion, Segmentierung und Klassifikation. Das EQ-Paradigma ist ein einheitliches Framework, das die Kombination beliebiger bestehender 3D-Backbone-Architekturen mit unterschiedlichen Task-Head-Modellen ermöglicht. Unter dem EQ-Paradigma werden die Eingabedaten zunächst im Embedding-Schritt mit einer beliebigen Merkmalsextraktionsarchitektur kodiert, wobei diese Architektur unabhängig von den spezifischen Aufgaben und Head-Modellen ist. Anschließend ermöglicht der Querying-Schritt, dass die kodierten Merkmale für eine Vielzahl von Task-Head-Modellen nutzbar werden. Dies wird durch die Einführung einer intermediären Darstellung, der sogenannten Q-Darstellung, im Querying-Schritt erreicht, die als Brücke zwischen dem Embedding-Schritt und den Task-Head-Modellen fungiert. Wir entwickeln ein neuartiges Q-Net als Netzwerk für den Querying-Schritt. Umfangreiche experimentelle Ergebnisse auf verschiedenen 3D-Aufgaben – einschließlich Objektdetektion, semantischer Segmentierung und Formklassifikation – zeigen, dass das EQ-Paradigma in Kombination mit dem Q-Net ein allgemein gültiger und effektiver Pipeline-Ansatz ist, der eine flexible Zusammenarbeit zwischen Backbones und Heads ermöglicht und zudem die Leistungszahlen bestehender State-of-the-Art-Methoden weiter verbessert. Der Quellcode und die Modelle sind unter https://github.com/dvlab-research/DeepVision3D verfügbar.