Groupe Collaboratif : Récupération d'Images Composées par Apprentissage Consensuel à partir d'Annotations Bruitées

La recherche d'images composées étend les systèmes de recherche d'images basés sur le contenu en permettant aux utilisateurs de rechercher à l'aide d'images de référence et de légendes décrivant leurs intentions. Malgré les progrès considérables réalisés dans le développement de compositors image-texte pour extraire des caractéristiques visuelles-linguistiques discriminantes, nous identifions un problème jusqu'à présent négligé : l'ambiguïté des triplets, qui entrave une extraction fiable des caractéristiques. L'ambiguïté des triplets fait référence à un type d'ambiguïté sémantique qui surgit entre l'image de référence, la légende relative et l'image cible. Elle est principalement due à la représentation limitée du texte annoté, entraînant de nombreux triplets bruyants où plusieurs images candidates visuellement dissemblables peuvent être associées au même couple de référence (c'est-à-dire une image de référence + une légende relative).Pour relever ce défi, nous proposons le réseau Consensus (Css-Net), inspiré par le concept psychologique selon lequel les groupes surpassent les individus. Le Css-Net comprend deux composants essentiels : (1) un module de consensus avec quatre compositors diversifiés, chacun générant des plongements image-texte distincts, favorisant ainsi l'extraction complémentaire des caractéristiques et atténuant la dépendance à tout compositeur unique potentiellement biaisé ; (2) une perte de divergence Kullback-Leibler qui encourage l'apprentissage des interactions inter-compositors pour promouvoir des sorties consensuelles.Lors de l'évaluation, les décisions des quatre compositors sont combinées par un schéma pondéré, améliorant ainsi l'accord global. Sur des jeux de données de référence, notamment FashionIQ, le Css-Net montre des améliorations notables. Il faut souligner qu'il réalise des gains significatifs en rappel, avec une augmentation de 2,77 % en R@10 et une progression de 6,67 % en R@50, mettant en évidence sa compétitivité dans la résolution des limitations fondamentales des méthodes existantes.