Reconnaissance de scènes consciente du sens

La reconnaissance de scènes constitue actuellement l’un des domaines de recherche les plus exigeants en vision par ordinateur. Cette difficulté peut s’expliquer par l’ambiguïté entre les classes : des images appartenant à plusieurs classes de scènes peuvent partager des objets similaires, ce qui entraîne une confusion entre elles. Ce problème s’aggrave lorsque les images d’une même classe de scène présentent des variations importantes. Bien que les réseaux de neurones convolutifs (CNN) aient considérablement amélioré les performances en reconnaissance de scènes, celles-ci restent encore très inférieures à celles obtenues dans d’autres tâches de reconnaissance (par exemple, reconnaissance d’objets ou d’images). Dans cet article, nous proposons une nouvelle approche pour la reconnaissance de scènes basée sur un CNN multimodal end-to-end qui combine l’information visuelle et contextuelle grâce à un module d’attention. L’information contextuelle, sous la forme d’une segmentation sémantique, est utilisée pour moduler les caractéristiques extraites à partir de l’image RGB en exploitant les informations codées dans la représentation sémantique : l’ensemble des objets et des éléments de scène (stuff), ainsi que leurs positions relatives. Ce processus de modulation renforce l’apprentissage du contenu indicatif de la scène et améliore la désambiguïsation scènique en recentrant les champs réceptifs du CNN sur ces éléments pertinents. Les résultats expérimentaux sur quatre jeux de données publiques démontrent que la méthode proposée surpasser toutes les autres approches de pointe tout en réduisant de manière significative le nombre de paramètres du réseau. Le code et les données utilisés dans ce travail sont disponibles à l’adresse suivante : https://github.com/vpulab/Semantic-Aware-Scene-Recognition