vor 16 Tagen

Zustandsraummodell trifft auf Transformer: ein neuer Paradigma für die 3D-Objekterkennung

Chuxin Wang, Wenfei Yang, Xiang Liu, Tianzhu Zhang

Abstract

Methoden auf Basis von DETR, die mehrschichtige Transformer-Decodierer nutzen, um Objektanfragen iterativ zu verfeinern, haben in der 3D-Objektdetektion im Innenraum vielversprechende Leistungen gezeigt. Allerdings bleiben die Szenepunktmerkmale im Transformer-Decoder unverändert, wodurch die Beiträge der späteren Decodierschichten minimal sind und die Leistungssteigerung eingeschränkt wird. Kürzlich haben State Space Models (SSM) aufgrund ihrer linearen Komplexität und effizienten Modellierung von Kontextinformationen durch iterative Wechselwirkungen zwischen Systemzuständen und Eingaben viel Aufmerksamkeit erregt. Inspiriert durch SSMs stellen wir ein neues Paradigma für die 3D-Objektdetektion vor, das einen interaktiven State Space Model (DEST) integriert. Im interaktiven SSM entwickeln wir eine neuartige, zustandsabhängige Parameterisierung des SSM, die es ermöglicht, dass Systemzustände effektiv als Anfragen in Aufgaben der 3D-Objektdetektion im Innenraum dienen. Zudem führen wir vier maßgeschneiderte Entwürfe ein, die den Eigenschaften von Punktwolken und SSMs Rechnung tragen: Die Serialisierungs- und bidirektionale Scanning-Strategien ermöglichen eine bidirektionale Merkmalsinteraktion zwischen Szenepunkten innerhalb des SSM. Die inter-state-Attention-Mechanismus modelliert die Beziehungen zwischen Zustandspunkten, während das gated Feed-Forward-Netzwerk die Korrelationen zwischen Kanälen verstärkt. Sofern uns bekannt ist, ist dies die erste Methode, die Anfragen als Systemzustände und Szenepunkte als Systemeingaben modelliert und gleichzeitig die Szenepunktmerkmale und die Anfrage- Merkmale mit linearer Komplexität aktualisiert. Umfangreiche Experimente auf zwei anspruchsvollen Datensätzen belegen die Wirksamkeit unserer DEST-basierten Methode. Unsere Methode verbessert die GroupFree-Baseline hinsichtlich des AP50 auf den ScanNet V2 (+5,3) und SUN RGB-D (+3,2) Datensätzen. Basierend auf der VDETR-Baseline erreicht unsere Methode neue SOTA-Ergebnisse auf den ScanNetV2- und SUN RGB-D-Datensätzen.