Compréhension progressive multimodale pour la segmentation par référence

Étant donné une expression en langage naturel et une image ou une vidéo, le but de la segmentation par référence est de produire des masques au niveau des pixels correspondant aux entités décrites par le sujet de l’expression. Les approches antérieures abordent ce problème par une interaction et une fusion implicites entre les modalités visuelles et linguistiques, de manière monostade. Toutefois, les humains ont tendance à résoudre ce type de problème de manière progressive, en se basant sur les mots informatifs présents dans l’expression : ils localisent d’abord de manière approximative les entités candidates, puis distinguent précisément l’entité cible. Dans cet article, nous proposons un schéma de compréhension progressive multimodale (CMPC, Cross-Modal Progressive Comprehension), afin de mimétiser efficacement ce comportement humain, et nous l’implémentons sous forme de modules CMPC-I (pour les images) et CMPC-V (pour les vidéos), afin d’améliorer les modèles de segmentation par référence d’images et de vidéos. Pour les données d’image, notre module CMPC-I utilise d’abord les mots d’entité et d’attribut pour percevoir toutes les entités pertinentes potentiellement mentionnées par l’expression. Ensuite, les mots relationnels sont exploités pour mettre en évidence l’entité cible tout en supprimant les autres entités non pertinentes, via une raisonnement basé sur un graphe spatial. Pour les données vidéo, notre module CMPC-V exploite, à partir de CMPC-I, les mots d’action afin de mettre en évidence l’entité correcte correspondant aux indices d’action, grâce à un raisonnement basé sur un graphe temporel. En complément du CMPC, nous introduisons également un module simple mais efficace, nommé Échange de caractéristiques guidé par le texte (TGFE, Text-Guided Feature Exchange), qui permet d’intégrer les caractéristiques multimodales raisonnées à différents niveaux dans le modèle visuel, sous la guidance de l’information textuelle. Ainsi, les caractéristiques de plusieurs niveaux peuvent communiquer entre elles et s’affiner mutuellement en fonction du contexte textuel. L’association du CMPC-I ou du CMPC-V avec le TGFE permet de constituer nos architectures respectives pour la segmentation par référence d’images ou de vidéos, qui atteignent de nouveaux états de l’art sur quatre benchmarks de segmentation par référence d’images et trois benchmarks de segmentation par référence de vidéos.