Jenseits der 3D-Siamesischen Verfolgung: Ein bewegungsorientiertes Paradigma für die 3D-Einzelnobjektverfolgung in Punktwolken

Die 3D-Einzelerkennung (3D SOT) in LiDAR-Punktwolken spielt eine entscheidende Rolle im autonomen Fahren. Derzeitige Ansätze folgen alle dem Siamesen-Paradigma basierend auf Erscheinungsmerkmalsabgleich. Allerdings sind LiDAR-Punktwolken in der Regel texturlos und unvollständig, was einen effektiven Erscheinungsmerkmalsabgleich erschwert. Darüber hinaus ignorieren bisherige Methoden die wichtigen Bewegungshinweise zwischen den Zielen weitgehend. In dieser Arbeit gehen wir über die 3D-Siamesenerkennung hinaus und führen ein bewegungsorientiertes Paradigma ein, um 3D SOT aus einer neuen Perspektive zu bearbeiten. Gemäß diesem Paradigma schlagen wir einen abgleichsfreien, zweistufigen Tracker vor: M^2-Track. Im ersten Stadium lokalisiert M^2-Track das Ziel innerhalb aufeinanderfolgender Frames durch Bewegungstransformation. Anschließend verfeinert es die Ziellbox im zweiten Stadium durch bewegungsunterstützte Formvollendung. Ausführliche Experimente bestätigen, dass M^2-Track bei drei großen Datensätzen erheblich bessere Ergebnisse als bisherige Standesderkunftsverfahren erzielt, wobei es mit einer Geschwindigkeit von 57 FPS Präzisionsgewinne von etwa 8 %, 17 % und 22 % auf den Datensätzen KITTI, NuScenes und Waymo Open Dataset erreicht. Eine weitere Analyse bestätigt die Effektivität jeder Komponente und zeigt das vielversprechende Potenzial des bewegungsorientierten Paradigmas, wenn es mit dem Erscheinungsmerkmalsabgleich kombiniert wird.