Corrélation sémantique favorisant un contexte variant selon la forme pour la segmentation

Le contexte est essentiel pour la segmentation sémantique. En raison des formes diverses des objets et de leurs dispositions complexes dans différentes images scéniques, les échelles spatiales et les formes des contextes associés aux différents objets présentent une variation très importante. Il est donc inefficace ou inefficace d’agréger les informations contextuelles à partir d’une région prédéfinie et fixe. Dans ce travail, nous proposons de générer un masque sémantique à variation d’échelle et de forme pour chaque pixel, afin de délimiter sa région contextuelle. Pour ce faire, nous introduisons tout d’abord une nouvelle convolution appariée, capable d’estimer la corrélation sémantique entre une paire de pixels, et d’utiliser cette corrélation pour générer un masque de forme. En exploitant la portée spatiale estimée de la région contextuelle, nous proposons une convolution à variation de forme, dont le champ réceptif est contrôlé par un masque de forme qui évolue en fonction de l’apparence de l’entrée. Ainsi, le réseau proposé agrège les informations contextuelles d’un pixel à partir de sa région sémantiquement corrélée, plutôt que d’une région fixe prédéfinie. Par ailleurs, ce travail introduit également un modèle de désinfection des étiquettes, visant à réduire les erreurs de prédiction dues aux caractéristiques de bas niveau bruitées. Sans recourir à des artifices supplémentaires, le réseau de segmentation proposé atteint de nouveaux états de l’art de manière cohérente sur six jeux de données publics de segmentation.