Apprentissage avec correspondance bruitée pour l'appariement cross-modale

L’alignement cross-modale, dont l’objectif est d’établir une correspondance entre deux modalités différentes, constitue un élément fondamental de nombreuses tâches telles que la recherche cross-modale et la compréhension vision-langage. Bien qu’un grand nombre de méthodes d’alignement cross-modale aient été proposées ces dernières années, atteignant des progrès remarquables, presque toutes reposent implicitement sur l’hypothèse que les données d’entraînement multimodales sont correctement alignées. Or, en pratique, cette hypothèse est extrêmement coûteuse, voire impossible à satisfaire. À partir de cette observation, nous mettons en lumière et étudions une direction latente et difficile dans l’alignement cross-modale, nommée « correspondance bruitée », qui peut être considérée comme un nouveau paradigme de labels bruités. Contrairement aux labels bruités traditionnels, qui se réfèrent principalement aux erreurs dans les étiquettes de catégorie, notre notion de correspondance bruitée désigne des paires d’échantillons mal alignées. Pour résoudre ce nouveau problème, nous proposons une méthode originale d’apprentissage avec correspondance bruitée, appelée Noisy Correspondence Rectifier (NCR). En résumé, NCR divise les données en partitions propres et bruitées en s’appuyant sur l’effet de mémoire des réseaux neuronaux, puis rectifie les correspondances via un modèle de prédiction adaptatif dans une approche de co-enseignement. Pour valider l’efficacité de notre méthode, nous menons des expériences en utilisant l’alignement image-texte comme exemple-type. Des expérimentations étendues sur les jeux de données Flickr30K, MS-COCO et Conceptual Captions confirment l’efficacité de notre approche. Le code est disponible à l’adresse www.pengxi.me.