Multi-tâche de localisation visuelle avec contraintes de cohérence de grossière à fine

Le positionnement visuel multi-tâches implique l'exécution simultanée de la localisation et de la segmentation d'images basées sur des expressions textuelles. La majorité des méthodes avancées se concentrent principalement sur la fusion multimodale basée sur les transformateurs, visant à extraire des représentations multimodales robustes. Cependant, l'ambiguïté entre la compréhension des expressions de référence (REC) et la segmentation d'images de référence (RIS) est source d'erreurs, entraînant des incohérences entre les prédictions multi-tâches. De plus, une compréhension multimodale insuffisante contribue directement à une perception biaisée des cibles. Pour surmonter ces défis, nous proposons une architecture de positionnement visuel par contraintes de cohérence grossière à fine ($\text{C}^3\text{VG}$), qui intègre des approches de modélisation implicite et explicite au sein d'un cadre en deux étapes. Initialement, des décodeurs de requêtes et de pixels sont utilisés pour générer des résultats préliminaires de détection et de segmentation, un processus appelé stade de Perception Sémantique Grossière (RSP). Ces prédictions grossières sont ensuite affinées grâce au module d'Interaction Guidée par les Masques (MIM) proposé et à une nouvelle perte explicite de contrainte bilatérale de cohérence, afin d'assurer une cohérence représentative entre les tâches, que nous nommons stade d'Interaction Affinée Cohérente (RCI). En outre, pour relever le défi d'une compréhension multimodale insuffisante, nous utilisons des modèles pré-entraînés basés sur des représentations fusionnant le visuel et le linguistique. Les évaluations empiriques sur les jeux de données RefCOCO, RefCOCO+ et RefCOCOg démontrent l'efficacité et la solidité du $\text{C}^3\text{VG}$, qui surpassent considérablement les méthodes REC et RIS les plus récentes avec une marge substantielle. Le code source et le modèle seront disponibles à l'adresse \url{https://github.com/Dmmm1997/C3VG}.