HyperAIHyperAI
il y a 17 jours

RDFNet : Fusion de caractéristiques résiduelles multi-niveaux RGB-D pour la segmentation sémantique en intérieur

{Ki-Sang Hong, Seong-Jin Park, Seungyong Lee}
RDFNet : Fusion de caractéristiques résiduelles multi-niveaux RGB-D pour la segmentation sémantique en intérieur
Résumé

Dans le cadre de la segmentation sémantique intérieure multi-classes à l’aide de données RGB-D, il a été démontré que l’intégration des caractéristiques profondes aux caractéristiques RGB améliore significativement la précision de segmentation. Toutefois, les études antérieures n’ont pas pleinement exploité le potentiel de la fusion de caractéristiques multi-modales, se contentant par exemple de concaténer simplement les caractéristiques RGB et profondes, ou de moyenniser les cartes de scores RGB et profondes. Afin d’apprendre une fusion optimale des caractéristiques multi-modales, ce papier présente un nouveau réseau qui étend l’idée fondamentale de l’apprentissage résiduel à la segmentation sémantique RGB-D. Notre architecture capture efficacement des caractéristiques CNN multi-niveaux RGB-D grâce à l’incorporation de blocs de fusion de caractéristiques multi-modales et de blocs de raffinement de caractéristiques multi-niveaux. Les blocs de fusion apprennent les caractéristiques résiduelles RGB et profondes ainsi que leurs combinaisons, afin d’exploiter pleinement les caractéristiques complémentaires des données RGB et profondes. Les blocs de raffinement apprennent les combinaisons des caractéristiques fusionnées issues de plusieurs niveaux, permettant ainsi des prédictions à haute résolution. Notre réseau permet d’entraîner de manière efficace, de manière end-to-end, des caractéristiques multi-niveaux discriminantes pour chaque modalité, en tirant pleinement parti des connexions de saut (skip-connections). Nos expériences approfondies démontrent que l’architecture proposée atteint un niveau d’exactitude de pointe sur deux jeux de données intérieurs RGB-D exigeants, à savoir NYUDv2 et SUN RGB-D.