HyperAIHyperAI
il y a 16 jours

NAC : Atténuation de la correspondance bruyante dans l'appariement cross-modale via un correcteur auxiliaire de voisinage

{Shao-Lun Huang, Jian Xu, Haoming Huang, Yuqing Li}
Résumé

La présence d’alignements bruités dans le cadre du matching entre modalités a considérablement affaibli les performances des méthodes existantes. Dans cet article, nous proposons un cadre robuste, nommé Correcteur auxiliaire par voisinage (Neighbor Auxiliary Corrector, NAC), visant à atténuer ce bruit en exploitant les voisins, qui sont indicatifs de cibles textuelles similaires. Cette approche s’inspire d’une observation selon laquelle des textes similaires ont tendance à correspondre à des images similaires. En tirant parti des capacités zero-shot des modèles linguistiques pré-entraînés (Pre-trained Language Models, PLMs), nous identifions les k plus proches voisins pour chaque paire image-texte positive. Ensuite, les informations complémentaires fournies par ces voisins sont utilisées à la fois pour la vérification des échantillons et pour leur rectification. Des expériences étendues sur des jeux de données standards démontrent que notre cadre permet une amélioration significative des performances et une meilleure robustesse face à divers niveaux de bruit dans les correspondances.

NAC : Atténuation de la correspondance bruyante dans l'appariement cross-modale via un correcteur auxiliaire de voisinage | Articles de recherche récents | HyperAI