HyperAIHyperAI
il y a 16 jours

Réseaux convolutifs déformables à contexte variationnel pour l’analyse de scènes intérieures

{ Qi Wang, Nianhui Guo, Yuan Yuan, Zhitong Xiong}
Réseaux convolutifs déformables à contexte variationnel pour l’analyse de scènes intérieures
Résumé

L'information contextuelle est essentielle pour la segmentation sémantique d'images. En particulier dans les scènes intérieures, la grande variabilité des échelles des objets rend le contexte spatial un facteur crucial pour améliorer les performances de segmentation. Ainsi, dans cet article, nous proposons un nouveau module variationnel à contexte déformable (VCD) afin d'apprendre de manière adaptative le champ réceptif de manière structurée. Contrairement aux réseaux convolutifs standards (ConvNets), qui utilisent un contexte spatial de taille fixe pour tous les pixels, le module VCD apprend un contexte spatial déformable grâce à l'information de profondeur : cette dernière fournit des indices permettant d'identifier les véritables voisinages locaux. Plus précisément, des noyaux gaussiens adaptatifs sont appris sous la guidance d'informations multimodales. En multipliant ces noyaux gaussiens appris avec les filtres de convolution standard, le module VCD peut ainsi agréger un contexte spatial flexible pour chaque pixel lors de la convolution. Les contributions principales de ce travail sont les suivantes : 1) la proposition d'un nouveau module VCD, qui exploite des noyaux gaussiens apprenables pour permettre l'apprentissage de caractéristiques avec un contexte adaptatif structuré ; 2) l'introduction d'un modèle probabiliste bayésien variationnel pour l'entraînement du module VCD, ce qui permet de rendre l'approche continue et plus stable ; 3) la conception d'un module de guidage sensible à la perspective, qui exploite efficacement les informations multimodales pour la segmentation RGB-D. Nous évaluons la méthode proposée sur trois jeux de données largement utilisés, et les améliorations obtenues démontrent l'efficacité de la méthode.

Réseaux convolutifs déformables à contexte variationnel pour l’analyse de scènes intérieures | Articles de recherche récents | HyperAI