HyperAIHyperAI
il y a 16 jours

Récupération multimodale avec des paires partiellement mal appariées

{Xi Peng, Xu Wang, Dezhong Peng, Zhenyu Huang, Peng Hu}
Résumé

Dans cet article, nous étudions un problème difficile mais peu exploré dans le domaine de la récupération multimodale : les paires partiellement mal appariées (PMPs, Partially Mismatched Pairs). En effet, dans les scénarios réels, un grand nombre de données multimodales (par exemple, le jeu de données Conceptual Captions) sont collectées à partir d'Internet, ce qui rend inévitable le traitement erroné de certaines paires multimodales non pertinentes comme étant appariées. Sans aucun doute, ce problème des PMPs dégrade considérablement les performances de la récupération multimodale. Pour relever ce défi, nous proposons un cadre théorique unifié, robuste et fondé sur l'apprentissage multimodal (RCL, Robust Cross-modal Learning), basé sur un estimateur sans biais du risque de récupération multimodale, visant à doter les méthodes de récupération multimodale de robustesse face aux PMPs. Plus précisément, notre cadre RCL adopte un nouveau paradigme d'apprentissage contrastif complémentaire afin de répondre à deux défis majeurs : les problèmes de surajustement et de sous-ajustement. D'une part, notre méthode n'utilise que les informations négatives, qui sont bien moins sujettes à l'erreur que les informations positives, permettant ainsi d'éviter le surajustement aux PMPs. D'autre part, ces stratégies robustes peuvent induire des problèmes de sous-ajustement, rendant l'entraînement des modèles plus difficile. Pour contrer ce sous-ajustement dû à une supervision faible, nous proposons d'exploiter toutes les paires négatives disponibles afin d'enrichir la supervision contenue dans les informations négatives. En outre, pour améliorer davantage les performances, nous proposons de minimiser les bornes supérieures du risque, afin de prêter davantage d'attention aux exemples difficiles. Pour valider l'efficacité et la robustesse de la méthode proposée, nous menons des expériences approfondies sur cinq jeux de données standard largement utilisés, en la comparant à neuf approches de pointe pour les tâches de récupération image-texte et vidéo-texte. Le code source est disponible à l'adresse suivante : https://github.com/penghu-cs/RCL.

Récupération multimodale avec des paires partiellement mal appariées | Articles de recherche récents | HyperAI