MaIL : Un réseau trimodal unifié masque-image-langage pour la segmentation d'images par référence

La segmentation d’image par référence est une tâche typique multimodale, visant à générer un masque binaire correspondant à un objet décrit par une expression linguistique donnée. Les approches antérieures adoptent une solution bimodale, traitant les images et les langues comme deux modalités au sein d’un pipeline encodeur-fusion-décodeur. Toutefois, ce pipeline s’avère sous-optimisé pour la tâche cible pour deux raisons principales. Premièrement, elles ne fusionnent que des caractéristiques de haut niveau produites séparément par des encodeurs unimodaux, ce qui limite l’apprentissage croisémolal efficace. Deuxièmement, les encodeurs unimodaux sont pré-entraînés indépendamment, ce qui entraîne une incohérence entre les tâches unimodales de pré-entraînement et la tâche multimodale cible. En outre, ce pipeline ignore souvent ou utilise très peu les caractéristiques de niveau d’instance, qui sont pourtant intuitivement bénéfiques. Pour atténuer ces limitations, nous proposons MaIL, un pipeline encodeur-décodeur plus concis intégrant un encodeur trimodal Masque-Image-Langage. Plus précisément, MaIL unifie les extracteurs de caractéristiques unimodales et leur modèle de fusion en un encodeur profond d’interaction multimodale, favorisant une interaction suffisante entre les différentes modalités. Par ailleurs, MaIL élimine directement la deuxième limitation, puisqu’il ne nécessite plus d’encodeurs unimodaux. En outre, pour la première fois, nous proposons d’introduire les masques d’instance comme une modalité supplémentaire, ce qui intensifie explicitement les caractéristiques de niveau d’instance et améliore la précision de segmentation. Le modèle MaIL établit un nouveau record sur tous les jeux de données fréquemment utilisés pour la segmentation d’image par référence, notamment RefCOCO, RefCOCO+ et G-Ref, avec des gains significatifs de 3 à 10 % par rapport aux meilleures méthodes précédentes. Le code sera bientôt publié.