Récupération multimodale avec correspondance bruitée par raffinement de cohérence et exploration
L’efficacité des méthodes actuelles de récupération cross-modale (CMR) repose fortement sur l’hypothèse selon laquelle les correspondances annotées entre modalités sont parfaites. En pratique, toutefois, certaines paires de correspondances sont inévitablement contaminées lors de la collecte ou de l’annotation des données, donnant lieu au problème dit de « Correspondance Bruitée » (NC). Pour atténuer l’impact de ce problème, nous proposons une nouvelle méthode, nommée Consistency REfining And Mining (CREAM), qui exploite la différence entre correspondance et cohérence. Plus précisément, la correspondance et la cohérence ne coïncident que pour les paires vrais positifs et vrais négatifs, tandis qu’elles diffèrent pour les faux positifs et faux négatifs. À partir de cette observation, CREAM met en œuvre un paradigme d’apprentissage collaboratif afin de détecter et corriger les correspondances des paires positives, ainsi qu’une stratégie d’exploitation des négatifs pour explorer et tirer parti de la cohérence. Grâce à sa stratégie de raffinement et d’exploitation de la cohérence, CREAM permet de prévenir le surajustement aux faux positifs tout en exploitant la cohérence inhérente aux faux négatifs, conduisant ainsi à une méthode de CMR robuste. Des expériences étendues confirment l’efficacité de notre approche sur trois benchmarks image-texte : Flickr30K, MS-COCO et Conceptual Captions. En outre, nous avons appliqué notre méthode à la tâche d’appariement de graphes, où les résultats démontrent sa robustesse face au problème de bruit de correspondance à fort grain. Le code source est disponible à l’adresse suivante : https://github.com/XLearning-SCU/2024-TIP-CREAM.