Récupération d'Images Composées avec Retour d'Information Textuelle par Régularisation Multigranulaire de l'Incertain

Nous examinons la recherche d'images composites avec un retour d'information textuel. Les utilisateurs recherchent progressivement l'objet d'intérêt en passant d'un feedback grossier à un feedback fin. Cependant, les méthodes existantes se concentrent principalement sur le search fin, en exploitant des paires positives et négatives lors de l'entraînement. Ce paradigme basé sur les paires ne considère que la distance un-à-un entre une paire de points spécifiques, ce qui n'est pas aligné avec le processus de recherche grossière un-à-plusieurs et compromet le taux de rappel. Dans le but de combler cette lacune, nous introduisons une approche d'apprentissage unifiée pour modéliser simultanément la recherche grossière et fine en tenant compte de l'incertitude multigrain. L'idée clé sous-jacente à la méthode proposée est d'intégrer la recherche fine et grossière comme des correspondances de points de données avec des fluctuations petites et grandes, respectivement. Plus précisément, notre méthode comprend deux modules : la modélisation de l'incertitude et la régularisation de l'incertitude.La modélisation de l'incertitude simule les requêtes multigrain en introduisant des fluctuations identiquement distribuées dans l'espace des caractéristiques.Sur la base de la modélisation de l'incertitude, nous introduisons davantage une régularisation de l'incertitude pour adapter l'objectif de correspondance selon l'amplitude des fluctuations.Comparativement aux méthodes existantes, la stratégie proposée empêche explicitement le modèle de rejeter les candidats potentiels au stade initial, améliorant ainsi le taux de rappel. Sur trois jeux de données publics, à savoir FashionIQ, Fashion200k et Shoes, la méthode proposée a obtenu une précision Recall@50 supérieure à celle d'une ligne de base solide, respectivement +4,03 %, +3,38 % et +2,40 %.