Segmentation de matériaux multimodaux

La reconnaissance des matériaux à partir de leur apparence visuelle est essentielle pour les tâches de vision par ordinateur, en particulier celles impliquant une interaction avec le monde réel. La segmentation des matériaux, c’est-à-dire la reconnaissance dense au niveau de chaque pixel, reste un défi, car, contrairement aux objets, les matériaux ne présentent pas de signatures visuelles nettement distinctes dans leurs apparences régulières en RGB. Toutefois, différents matériaux entraînent des comportements radiométriques distincts, qui peuvent souvent être captés à l’aide de modalités d’imagerie non basées sur le RGB. Nous proposons une segmentation multimodale des matériaux à partir d’images RGB, polarimétriques et proches infrarouges. Nous introduisons le jeu de données MCubeS (pour MultiModal Material Segmentation), comprenant 500 ensembles d’images multimodales représentant 42 scènes urbaines. Des annotations de segmentation matérielle et sémantique sont fournies pour chaque image et chaque pixel. Nous avons également conçu un nouveau réseau neuronal profond, MCubeSNet, qui apprend à se concentrer sur les combinaisons les plus informatives de modalités d’imagerie pour chaque classe de matériau, grâce à une nouvelle couche de sélection de filtres guidée par région (RGFS). Cette sélection de filtres est orientée par une segmentation sémantique, utilisée comme information a priori. À notre connaissance, ce travail constitue la première étude complète sur la segmentation multimodale véritablement multimodale des matériaux. Nous pensons que nos résultats ouvrent de nouvelles voies d’application pratique de l’information matérielle dans des applications critiques pour la sécurité.