HyperAIHyperAI

Command Palette

Search for a command to run...

Modèle à espace d’état et Transformer : une nouvelle paradigme pour la détection d’objets 3D

Chuxin Wang Wenfei Yang Xiang Liu Tianzhu Zhang

Résumé

Les méthodes basées sur DETR, qui utilisent des décodeurs transformeurs à plusieurs couches pour affiner itérativement les requêtes d’objets, ont montré des performances prometteuses dans la détection d’objets 3D en intérieur. Toutefois, les caractéristiques des points scènes dans le décodeur transformeur restent fixes, ce qui limite fortement la contribution des couches décodeurs ultérieures et entrave ainsi l’amélioration des performances. Récemment, les Modèles d’Espace d’État (State Space Models, SSM) ont démontré une capacité efficace à modéliser le contexte grâce à une complexité linéaire, résultant d’interactions itératives entre les états du système et les entrées. Inspirés par les SSM, nous proposons un nouveau paradigme de détection d’objets 3D basé sur un modèle d’espace d’état interactif (DEST). Dans ce modèle SSM interactif, nous introduisons une nouvelle paramétrisation SSM dépendante de l’état, permettant aux états du système de servir efficacement de requêtes dans les tâches de détection d’objets 3D en intérieur. En outre, nous proposons quatre innovations spécifiquement conçues pour les caractéristiques des nuages de points et des SSM : les stratégies de sérialisation et de balayage bidirectionnel permettent une interaction bidirectionnelle entre les points scènes au sein du SSM ; le mécanisme d’attention inter-états modélise les relations entre les points d’état, tandis que le réseau feed-forward à portes renforce les corrélations inter-canaux. À notre connaissance, il s’agit de la première méthode à modéliser les requêtes comme des états du système et les points scènes comme des entrées du système, permettant ainsi une mise à jour simultanée des caractéristiques des points scènes et des caractéristiques des requêtes avec une complexité linéaire. Des expériences étendues sur deux jeux de données exigeants démontrent l’efficacité de notre méthode DEST. Notre approche améliore le modèle de base GroupFree en termes de AP50 sur les jeux de données ScanNet V2 (+5,3) et SUN RGB-D (+3,2). Sur la base du modèle VDETR, notre méthode établit un nouveau record d’état de l’art (SOTA) sur les jeux de données ScanNet V2 et SUN RGB-D.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp