HyperAIHyperAI
il y a 11 jours

Apprentissage à partir d'une correspondance bruitée avec tripartition pour l'appariement cross-modale

{Lin Hu, Zheng Li, Caili Guo, Zhimin Zeng, Zerun Feng}
Résumé

En raison du coût élevé de la labellisation, il est inévitable d’introduire une certaine proportion de correspondances bruyantes dans les jeux de données visuel-texte, ce qui entraîne une faible robustesse des modèles pour la correspondance cross-modale. Bien que les méthodes récentes divisent les jeux de données en sous-ensembles de paires propres et bruyantes afin d’obtenir des résultats prometteurs, elles souffrent toujours d’un surapprentissage des réseaux neuronaux profonds sur les correspondances bruyantes. En particulier, les paires positives similaires présentant une correspondance sémantique partiellement pertinente sont facilement attribuées par erreur au sous-ensemble de paires bruyantes sans une sélection soigneuse, ce qui nuit gravement à l’apprentissage robuste. Par ailleurs, les paires négatives similaires présentant une correspondance sémantique partiellement pertinente entraînent des relations de distance ambigües dans l’apprentissage de l’espace commun, ce qui affecte également la stabilité des performances. Pour résoudre le problème de division grossière du jeu de données, nous proposons une méthode appelée Correspondence Tri-Partition Rectifier (CTPR), qui partitionne l’ensemble d’entraînement en trois sous-ensembles : paires propres, paires difficiles et paires bruyantes, en s’appuyant sur l’effet de mémoire des réseaux neuronaux et sur l’incohérence des prédictions. Ensuite, nous affinons les étiquettes de correspondance pour chaque sous-ensemble afin de refléter fidèlement la véritable correspondance sémantique entre les paires visuel-texte. La différence entre les étiquettes rectifiées des éléments d’ancrage et des négatifs difficiles est réinterprétée comme une marge adaptative dans une perte triplet améliorée, permettant un entraînement robuste selon un mécanisme de co-enseignement. Pour valider l’efficacité et la robustesse de notre méthode, nous menons des expériences en mettant en œuvre la correspondance image-texte et vidéo-texte comme deux exemples représentatifs. Des expérimentations étendues sur les jeux de données Flickr30K, MS-COCO, MSR-VTT et LSMDC montrent que notre approche parvient à partitionner efficacement les paires visuel-texte selon leur correspondance sémantique et améliore significativement les performances dans un cadre d’entraînement avec données bruyantes.

Apprentissage à partir d'une correspondance bruitée avec tripartition pour l'appariement cross-modale | Articles de recherche récents | HyperAI