SafaRi : Transformers d' séquence adaptatifs pour la segmentation d'expressions de référence faiblement supervisée

La segmentation d'expressions de référence (RES) vise à fournir un masque de segmentation de l'objet cible dans une image décrite par le texte (c'est-à-dire, l'expression de référence). Les méthodes existantes nécessitent des annotations de masques à grande échelle. De plus, ces approches ne généralisent pas bien aux scénarios inédits ou à zéro tirage. Pour résoudre les problèmes mentionnés, nous proposons une architecture d'apprentissage faiblement supervisé pour la RES avec plusieurs nouvelles innovations algorithmiques. À notre connaissance, c'est la première approche qui n'utilise qu'une fraction des annotations de masques et de boîtes (illustrées dans la Figure 1 et le Tableau 1) pour l'entraînement. Pour permettre une formation rigoureuse des modèles dans ces conditions d'annotations limitées, améliorer l'alignement régional entre l'image et le texte, et renforcer encore davantage la localisation spatiale de l'objet cible dans l'image, nous proposons un module de fusion intermodale avec cohérence d'attention. Pour l'étiquetage pseudo-automatique des échantillons non étiquetés, nous introduisons une nouvelle routine de filtrage de validité des masques basée sur une approche de notation propositionnelle à zéro tirage prenant en compte la localisation spatiale. Des expériences exhaustives montrent que, avec seulement 30% des annotations, notre modèle SafaRi atteint des mIoUs de 59,31 et 48,26 respectivement sur les jeux de données RefCOCO+@testA et RefCOCO+testB, comparativement aux mIoUs de 58,93 et 48,19 obtenus par la méthode SOTA entièrement supervisée SeqTR. SafaRi surpass également SeqTR respectivement de 11,7% (sur RefCOCO+testA) et 19,6% (sur RefCOCO+testB) dans un cadre entièrement supervisé et démontre une forte capacité de généralisation pour les tâches inédites ou à zéro tirage.