HyperAIHyperAI
vor 2 Monaten

LION: Lineare Gruppen-RNN für die 3D-Objekterkennung in Punktwolken

Zhe Liu; Jinghua Hou; Xinyu Wang; Xiaoqing Ye; Jingdong Wang; Hengshuang Zhao; Xiang Bai
LION: Lineare Gruppen-RNN für die 3D-Objekterkennung in Punktwolken
Abstract

Der Nutzen von Transformers bei umfangreichen 3D-Punktewolken-Wahrnehmungsaufgaben, wie der 3D-Objekterkennung, wird durch ihre quadratische Berechnungskosten begrenzt, wenn es darum geht, langreichweitige Beziehungen zu modellieren. Im Gegensatz dazu haben lineare RNNs eine geringe Rechenkomplexität und sind für die Modellierung langreichweitiger Beziehungen geeignet. Um dieses Ziel zu erreichen, schlagen wir einen einfachen und effektiven fester-basierten Rahmen vor, der auf Linearer Gruppen-RNN (d.h., lineare RNN für gruppierte Merkmale) basiert, zur genauen 3D-Objekterkennung. Dieses Verfahren nennen wir LION. Die entscheidende Eigenschaft besteht darin, ausreichende Merkmalsinteraktion in einer viel größeren Gruppe als bei transformerbasierten Methoden zu ermöglichen. Allerdings ist die effektive Anwendung von linearer Gruppen-RNN auf 3D-Objekterkennung in stark dünn besetzten Punktewolken nicht trivial aufgrund ihrer Einschränkungen bei der räumlichen Modellierung. Um dieses Problem anzugehen, führen wir einfach einen 3D-raumbezogenen Merkmalsdeskriptor ein und integrieren ihn in die linearen Gruppen-RNN-Operatoren, um deren räumliche Merkmale zu verbessern anstatt die Anzahl der Scanningschritte für Voxel-Merkmale blind zu erhöhen. Um die Herausforderung in stark dünn besetzten Punktewolken weiter zu meistern, schlagen wir eine Strategie zur Generierung von 3D-Voxeln vor, um Vordergrundmerkmale dank der autoregressiven Natur linearer Gruppen-RNNs zu verdichten. Ausführliche Experimente bestätigen die Effektivität der vorgeschlagenen Komponenten sowie die Generalisierungsfähigkeit unseres LION auf verschiedenen linearen Gruppen-RNN-Operatoren einschließlich Mamba, RWKV und RetNet. Es ist außerdem erwähnenswert, dass unser LION-Mamba den aktuellen Stand der Technik (state-of-the-art) auf den Datensätzen Waymo, nuScenes, Argoverse V2 und ONCE erreicht hat. Zuletzt möchten wir hervorheben, dass unsere Methode verschiedene fortschrittliche lineare RNN-Operatoren (z.B., RetNet, RWKV, Mamba, xLSTM und TTT) auf dem kleinen aber beliebten KITTI-Datensatz unterstützt, um eine schnelle Einführung in unseren linear-RNN-basierten Rahmen zu ermöglichen.

LION: Lineare Gruppen-RNN für die 3D-Objekterkennung in Punktwolken | Neueste Forschungsarbeiten | HyperAI