SRRM : Modèle de Relation de Région Sémantique pour la Reconnaissance de Scènes Intérieures

Malgré les succès remarquables des réseaux de neurones convolutifs dans diverses tâches de vision par ordinateur, la reconnaissance des scènes intérieures reste un défi important en raison de leur composition complexe. Par conséquent, l'exploitation efficace des informations sémantiques présentes dans la scène est devenue une question clé pour améliorer la reconnaissance des scènes intérieures. Malheureusement, la précision limitée de la segmentation sémantique entrave l'efficacité des approches existantes pour tirer parti de ces informations sémantiques. En conséquence, nombre de ces méthodes restent au stade d'étiquetage auxiliaire ou de statistiques de co-occurrence, tandis que peu d'entre elles explorent directement les relations contextuelles entre les éléments sémantiques au sein de la scène. Dans cet article, nous proposons le Modèle de Relation entre Régions Sémantiques (SRRM), qui part directement des informations sémantiques présentes dans la scène. Plus précisément, le SRRM adopte une approche adaptative et efficace pour atténuer l'impact négatif de l'ambiguïté sémantique, puis modélise les relations entre régions sémantiques afin de réaliser la reconnaissance de scène. Par ailleurs, afin d'exploiter de manière plus complète les informations contenues dans la scène, nous combinons le SRRM proposé avec le module PlacesCNN pour créer le Modèle Combiné de Relation entre Régions Sémantiques (CSRRM), tout en proposant une nouvelle méthode de fusion d'information pour explorer efficacement les contenus complémentaires entre les deux. Le CSRRM surpasse significativement les méthodes de l'état de l'art sur les jeux de données MIT Indoor 67, Places365 réduit et SUN RGB-D, sans nécessiter de re-entraînement. Le code est disponible à l'adresse suivante : https://github.com/ChuanxinSong/SRRM