M3TR : Reconnaissance multi-modale multi-étiquette basée sur le Transformer
La reconnaissance d'images à plusieurs étiquettes vise à identifier simultanément plusieurs objets au sein d'une même image. Les approches récentes pour résoudre ce problème se sont concentrées sur l'apprentissage des dépendances entre les co-occurrences d'étiquettes afin d'améliorer les représentations sémantiques de haut niveau. Toutefois, ces méthodes négligent souvent les relations essentielles entre les structures visuelles intrinsèques et rencontrent des difficultés à comprendre les relations contextuelles. Afin de construire un cadre global de contexte visuel ainsi que des interactions entre les modalités visuelle et linguistique, nous proposons le modèle M3TR (Multi-Modal Multi-label recognition TRansformers), basé sur un apprentissage des relations ternaires entre et au sein des modalités. Pour modéliser les relations intra-modalités, nous proposons une synergie innovante entre les réseaux de neurones convolutifs (CNN) et les Transformers, permettant d'intégrer les structures visuelles dans les caractéristiques de haut niveau grâce à un apprentissage de l'attention sémantique croisée. Pour établir les interactions entre les modalités visuelle et linguistique, nous introduisons une attention linguistique croisée, qui incorpore des informations linguistiques par classe dans le processus d'apprentissage des structures visuelles. Enfin, nous proposons un module d'amélioration guidé par le langage, destiné à renforcer les représentations sémantiques de haut niveau. Les résultats expérimentaux démontrent que, grâce à l'apprentissage collaboratif des relations ternaires, notre modèle M3TR atteint un nouveau record sur deux benchmarks publics de reconnaissance multi-étiquettes.