il y a 11 jours

Modèle à espace d’état et Transformer : une nouvelle paradigme pour la détection d’objets 3D

Chuxin Wang, Wenfei Yang, Xiang Liu, Tianzhu Zhang

Résumé

Les méthodes basées sur DETR, qui utilisent des décodeurs transformeurs à plusieurs couches pour affiner itérativement les requêtes d’objets, ont montré des performances prometteuses dans la détection d’objets 3D en intérieur. Toutefois, les caractéristiques des points scènes dans le décodeur transformeur restent fixes, ce qui limite fortement la contribution des couches décodeurs ultérieures et entrave ainsi l’amélioration des performances. Récemment, les Modèles d’Espace d’État (State Space Models, SSM) ont démontré une capacité efficace à modéliser le contexte grâce à une complexité linéaire, résultant d’interactions itératives entre les états du système et les entrées. Inspirés par les SSM, nous proposons un nouveau paradigme de détection d’objets 3D basé sur un modèle d’espace d’état interactif (DEST). Dans ce modèle SSM interactif, nous introduisons une nouvelle paramétrisation SSM dépendante de l’état, permettant aux états du système de servir efficacement de requêtes dans les tâches de détection d’objets 3D en intérieur. En outre, nous proposons quatre innovations spécifiquement conçues pour les caractéristiques des nuages de points et des SSM : les stratégies de sérialisation et de balayage bidirectionnel permettent une interaction bidirectionnelle entre les points scènes au sein du SSM ; le mécanisme d’attention inter-états modélise les relations entre les points d’état, tandis que le réseau feed-forward à portes renforce les corrélations inter-canaux. À notre connaissance, il s’agit de la première méthode à modéliser les requêtes comme des états du système et les points scènes comme des entrées du système, permettant ainsi une mise à jour simultanée des caractéristiques des points scènes et des caractéristiques des requêtes avec une complexité linéaire. Des expériences étendues sur deux jeux de données exigeants démontrent l’efficacité de notre méthode DEST. Notre approche améliore le modèle de base GroupFree en termes de AP50 sur les jeux de données ScanNet V2 (+5,3) et SUN RGB-D (+3,2). Sur la base du modèle VDETR, notre méthode établit un nouveau record d’état de l’art (SOTA) sur les jeux de données ScanNet V2 et SUN RGB-D.