Apprentissage fondé sur des preuves profondes avec correspondance bruitée pour la recherche multimodale
La recherche multimodale a suscité un intérêt considérable au sein de la communauté multimodale. Récemment, afin de réduire les coûts élevés liés à la collecte de données, des paires co-occurentes (par exemple, images et textes) peuvent être extraites à grande échelle depuis Internet pour constituer des jeux de données multimodaux, comme Conceptual Captions. Toutefois, cette approche introduit inévitablement du bruit (c’est-à-dire des paires mal appariées) dans les données d’entraînement, un phénomène désigné sous le nom de correspondance bruitée. Sans conteste, ce bruit rend l’information de supervision peu fiable ou incertaine, entraînant une dégradation significative des performances. En outre, la plupart des méthodes existantes se concentrent principalement sur les négatifs difficiles, ce qui amplifie encore l’incertitude liée au bruit. Pour résoudre ces problèmes, nous proposons un cadre généralisé d’apprentissage cross-modal profond fondé sur les preuves (Deep Evidential Cross-modal Learning, DECL), intégrant un nouveau paradigme d’apprentissage par preuves cross-modales (Cross-modal Evidential Learning, CEL) et une perte dynamique robuste à l’angle (Robust Dynamic Hinge loss, RDH), combinant l’apprentissage positif et négatif. Le CEL permet de capturer et d’apprendre l’incertitude induite par le bruit, améliorant ainsi la robustesse et la fiabilité de la recherche cross-modale. Plus précisément, des preuves bidirectionnelles fondées sur la similarité cross-modale sont d’abord modélisées et paramétrées selon une distribution de Dirichlet, ce qui assure à la fois une estimation précise de l’incertitude et une résilience accrue aux perturbations causées par les correspondances bruitées. Pour contrer le phénomène d’amplification, la RDH augmente progressivement la difficulté des négatifs ciblés, offrant ainsi une robustesse supérieure face à un niveau élevé de bruit. Des expériences étendues ont été menées sur trois jeux de données de référence image-texte : Flickr30K, MS-COCO et Conceptual Captions, afin de valider l’efficacité et l’efficience de la méthode proposée. Le code source est disponible à l’adresse suivante : https://github.com/QinYang79/DECL.