HyperAIHyperAI

Command Palette

Search for a command to run...

Zustandsraummodell trifft auf Transformer: ein neuer Paradigma für die 3D-Objekterkennung

Chuxin Wang Wenfei Yang Xiang Liu Tianzhu Zhang

Zusammenfassung

Methoden auf Basis von DETR, die mehrschichtige Transformer-Decodierer nutzen, um Objektanfragen iterativ zu verfeinern, haben in der 3D-Objektdetektion im Innenraum vielversprechende Leistungen gezeigt. Allerdings bleiben die Szenepunktmerkmale im Transformer-Decoder unverändert, wodurch die Beiträge der späteren Decodierschichten minimal sind und die Leistungssteigerung eingeschränkt wird. Kürzlich haben State Space Models (SSM) aufgrund ihrer linearen Komplexität und effizienten Modellierung von Kontextinformationen durch iterative Wechselwirkungen zwischen Systemzuständen und Eingaben viel Aufmerksamkeit erregt. Inspiriert durch SSMs stellen wir ein neues Paradigma für die 3D-Objektdetektion vor, das einen interaktiven State Space Model (DEST) integriert. Im interaktiven SSM entwickeln wir eine neuartige, zustandsabhängige Parameterisierung des SSM, die es ermöglicht, dass Systemzustände effektiv als Anfragen in Aufgaben der 3D-Objektdetektion im Innenraum dienen. Zudem führen wir vier maßgeschneiderte Entwürfe ein, die den Eigenschaften von Punktwolken und SSMs Rechnung tragen: Die Serialisierungs- und bidirektionale Scanning-Strategien ermöglichen eine bidirektionale Merkmalsinteraktion zwischen Szenepunkten innerhalb des SSM. Die inter-state-Attention-Mechanismus modelliert die Beziehungen zwischen Zustandspunkten, während das gated Feed-Forward-Netzwerk die Korrelationen zwischen Kanälen verstärkt. Sofern uns bekannt ist, ist dies die erste Methode, die Anfragen als Systemzustände und Szenepunkte als Systemeingaben modelliert und gleichzeitig die Szenepunktmerkmale und die Anfrage- Merkmale mit linearer Komplexität aktualisiert. Umfangreiche Experimente auf zwei anspruchsvollen Datensätzen belegen die Wirksamkeit unserer DEST-basierten Methode. Unsere Methode verbessert die GroupFree-Baseline hinsichtlich des AP50 auf den ScanNet V2 (+5,3) und SUN RGB-D (+3,2) Datensätzen. Basierend auf der VDETR-Baseline erreicht unsere Methode neue SOTA-Ergebnisse auf den ScanNetV2- und SUN RGB-D-Datensätzen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp