HyperAIHyperAI
il y a 13 jours

Propagation de caractéristiques multi-modales bidirectionnelles avec une porte de séparation-et-agrégation pour la segmentation sémantique RGB-D

Xiaokang Chen, Kwan-Yee Lin, Jingbo Wang, Wayne Wu, Chen Qian, Hongsheng Li, Gang Zeng
Propagation de caractéristiques multi-modales bidirectionnelles avec une porte de séparation-et-agrégation pour la segmentation sémantique RGB-D
Résumé

Les informations de profondeur se sont révélées être un indicateur utile pour la segmentation sémantique d’images RGB-D, en offrant un complément géométrique à la représentation RGB. La plupart des travaux existants supposent simplement que les mesures de profondeur sont précises et correctement alignées avec les pixels RGB, et modélisent le problème comme une fusion de caractéristiques inter-modales afin d’obtenir des représentations de caractéristiques améliorées, conduisant à une segmentation plus précise. Toutefois, cette approche peut ne pas produire de résultats satisfaisants, car les données réelles de profondeur sont généralement bruitées, ce qui peut détériorer la précision lorsque les réseaux s’approfondissent.Dans cet article, nous proposons un encodeur uni et efficace guidé par la cross-modalité, capable non seulement de recalibrer efficacement les réponses des caractéristiques RGB, mais aussi de distiller des informations de profondeur précises à travers plusieurs étapes, tout en agrégeant de manière alternative les deux représentations recalibrées. Le cœur de l’architecture proposée repose sur une nouvelle opération de commande séparation-et-agrégation, qui filtre et recalibre conjointement les deux représentations avant leur agrégation inter-modale. Par ailleurs, une stratégie de propagation multi-étapes bidirectionnelle est introduite, permettant, d’une part, de propager et de fusionner efficacement l’information entre les deux modalités, et, d’autre part, de préserver leur spécificité tout au long du processus de propagation prolongé. En outre, l’encodeur proposé peut être facilement intégré dans des architectures d’encodeur-décodeur antérieures afin d’améliorer leurs performances sur la segmentation sémantique RGB-D. Notre modèle surpasse de manière cohérente les états de l’art sur des jeux de données exigeants, aussi bien en intérieur qu’en extérieur. Le code de ce travail est disponible à l’adresse suivante : https://charlescxk.github.io/