Contexte-I2W : Mappage d'images à des mots dépendants du contexte pour une recherche d'images composées zéro-shot précise

Contrairement à la tâche de recherche d'images composées qui nécessite des étiquettes coûteuses pour l'entraînement de modèles spécifiques à la tâche, la recherche d'images composées par apprentissage sans exemple (ZS-CIR) implique une variété de tâches avec une large gamme d'intentions de manipulation visuelle qui peuvent être liées au domaine, à la scène, à l'objet et aux attributs. Le défi majeur des tâches ZS-CIR est d'apprendre une représentation d'image plus précise qui accorde une attention adaptative à l'image de référence pour diverses descriptions de manipulation. Dans cet article, nous proposons un nouveau réseau de cartographie dépendant du contexte, nommé Context-I2W, pour convertir dynamiquement les informations d'image pertinentes à la description en un jeton pseudo-mot composé de la description afin d'assurer une recherche ZS-CIR précise. Plus précisément, un Sélecteur Dynamique de Vue d'Intention apprend initialement une règle de rotation pour mapper l'image identique sur une vue spécifique à la tâche de manipulation. Ensuite, un Extracteur Visuel cible capture davantage d'informations locales couvrant les principaux objets dans les tâches ZS-CIR sous la direction de plusieurs requêtes apprenables. Ces deux modules complémentaires travaillent ensemble pour mapper une image vers un jeton pseudo-mot dépendant du contexte sans supervision supplémentaire. Notre modèle montre une forte capacité généralisatrice sur quatre tâches ZS-CIR, incluant la conversion de domaine, la composition d'objets, la manipulation d'objets et la manipulation d'attributs. Il obtient des améliorations significatives et cohérentes allant de 1,88% à 3,60% par rapport aux meilleures méthodes et atteint des résultats nouveaux et inégalés dans le domaine de ZS-CIR. Notre code est disponible sur https://github.com/Pter61/context-i2w.