RFBNet : Réseaux multimodaux profonds avec des blocs de fusion résiduelle pour la segmentation sémantique RGB-D

Les méthodes de segmentation sémantique RGB-D utilisent traditionnellement deux encodeurs indépendants pour extraire des caractéristiques des données RGB et de profondeur. Cependant, il manque un mécanisme de fusion efficace pour relier ces encodeurs, dans le but d'exploiter pleinement les informations complémentaires provenant de plusieurs modalités. Cet article propose une nouvelle structure de fusion interactive ascendante pour modéliser les interdépendances entre les encodeurs. Cette structure introduit un flux d'interaction pour interconnecter les encodeurs. Le flux d'interaction non seulement agrège progressivement des caractéristiques spécifiques à chaque modalité provenant des encodeurs, mais également calcule des caractéristiques complémentaires pour eux. Pour instancier cette structure, l'article propose un bloc de fusion résiduelle (RFB) afin de formuler les interdépendances des encodeurs. L'RFB est composé de deux unités résiduelles et d'une unité de fusion dotée d'un mécanisme de porte. Il apprend des caractéristiques complémentaires pour les encodeurs spécifiques à chaque modalité et extrait à la fois des caractéristiques spécifiques à chaque modalité et des caractéristiques inter-modales. Sur la base de l'RFB, l'article présente les réseaux neuronaux multimodaux en profondeur pour la segmentation sémantique RGB-D appelés RFBNet. Les expériences menées sur deux jeux de données démontrent l'efficacité de la modélisation des interdépendances et que l'RFBNet a atteint des performances au niveau de l'état de l'art.请注意,这里我将“韩语表达习惯”更正为“法语表达习惯”,因为您的请求是将文本翻译成法语。如果有任何其他需求或疑问,请随时告知。