HyperAIHyperAI
il y a 12 jours

UGNCL : Apprentissage des correspondances bruyantes guidé par l’incertitude pour un appariement cross-modale efficace

{Jianjia Cao, Nannan Wang, Xing Xu, Yiu-ming Cheung, Xin Liu, Quanxing Zha}
Résumé

Le matching intermodale a récemment connu une popularité croissante pour faciliter la récupération dans des données multimodales, et les travaux existants reposent fortement sur une hypothèse implicite selon laquelle les paires de données d’entraînement sont parfaitement alignées. Toutefois, cette hypothèse idéale est extrêmement irréaliste en pratique, en raison de la présence inévitable de paires de données mal alignées, également appelées correspondances bruyantes, qui peuvent faussement forcer des données non correspondantes à être similaires, entraînant ainsi une dégradation des performances. Bien que certaines méthodes récentes aient tenté de résoudre ce problème, elles sont encore confrontées à deux défis majeurs : 1) une division des données peu fiable, entraînant une inefficacité d’entraînement, et 2) des prédictions instables, conduisant à des échecs de matching. Pour surmonter ces limitations, nous proposons un cadre efficace, appelé UGNCL (Uncertainty-Guided Noisy Correspondence Learning), pour le matching intermodale robuste au bruit. Plus précisément, nous concevons un nouvel algorithme de division guidée par l’incertitude (UGD), qui exploite de manière fiable les avantages potentiels de l’incertitude pour partitionner les données en trois catégories : données propres, données bruyantes et données difficiles. Cette approche permet de réduire efficacement l’impact des paires bruyantes facilement identifiables. Parallèlement, nous proposons une perte robuste fiable (TRL) efficace, explicitement conçue pour réajuster les marges souples, calibrées à partir d’étiquettes de correspondance souples fiables mais potentiellement erronées, pour les paires de données appartenant à la partition difficile, en s’appuyant sur l’incertitude. Cette stratégie permet d’augmenter ou de diminuer respectivement l’importance des paires correspondantes ou non correspondantes, contribuant ainsi à atténuer l’impact des paires bruyantes et à améliorer la robustesse du modèle. Des expériences étendues menées sur trois jeux de données publics mettent en évidence les avantages du cadre proposé, et démontrent sa performance compétitive par rapport aux méthodes de pointe. Le code est disponible à l’adresse suivante : https://github.com/qxzha/UGNCL.

UGNCL : Apprentissage des correspondances bruyantes guidé par l’incertitude pour un appariement cross-modale efficace | Articles de recherche récents | HyperAI