Command Palette
Search for a command to run...
Apprentissage du Re-Appariement de Paires Non Appariées pour une Récupération Multimodale Robuste
Apprentissage du Re-Appariement de Paires Non Appariées pour une Récupération Multimodale Robuste
Haochen Han Qinghua Zheng Guang Dai Minnan Luo Jingdong Wang
Résumé
La collecte de jeux de données multimédias bien assortis est cruciale pour l'entraînement des modèles de recherche intermodale. Cependant, dans les scénarios du monde réel, d'importantes quantités de données multimodales sont extraites d'Internet, ce qui entraîne inévitablement la présence de Paires Partiellement Non Assorties (PMPs) [Partially Mismatched Pairs]. Il est indéniable que ces données sémantiquement non pertinentes nuiront considérablement aux performances de la recherche intermodale. Les efforts antérieurs ont tendance à atténuer ce problème en estimant une correspondance douce afin de réduire la contribution des PMPs. Dans cet article, nous visons à relever ce défi sous un angle nouveau : la similarité sémantique potentielle entre les échantillons non appariés rend possible l'extraction de connaissances utiles à partir des paires non assorties. Pour atteindre cet objectif, nous proposons L2RM, un cadre général basé sur le Transport Optimal (OT) [Optimal Transport] qui apprend à réapparier les paires non assorties. Plus précisément, L2RM vise à générer des alignements raffinés en recherchant un plan de transport à coût minimal entre différentes modalités. Pour formaliser l'idée de réappariement dans le cadre du OT, premièrement, nous proposons une fonction coût auto-supervisée qui apprend automatiquement à partir de la relation explicite entre similarité et coût. Deuxièmement, nous présentons un modèle pour résoudre un problème de OT partiel tout en restreignant le transport parmi les faux positifs afin d'améliorer davantage les alignements raffinés. Des expériences approfondies sur trois benchmarks montrent que notre méthode L2RM améliore significativement la robustesse des modèles existants face aux PMPs. Le code est disponible sur https://github.com/hhc1997/L2RM.