HyperAIHyperAI
il y a 2 mois

Apprentissage Actif Complémentaire Intermodal avec Affinement Auto-adaptatif de la Correspondance

Qin, Yang ; Sun, Yuan ; Peng, Dezhong ; Zhou, Joey Tianyi ; Peng, Xi ; Hu, Peng
Apprentissage Actif Complémentaire Intermodal avec Affinement Auto-adaptatif de la Correspondance
Résumé

Récemment, l'appariement image-texte a suscité de plus en plus d'attention dans les milieux académiques et industriels, constituant une base essentielle pour comprendre la correspondance latente entre les modalités visuelles et textuelles. Cependant, la plupart des méthodes existantes supposent implicitement que les paires d'entraînement sont bien alignées, tout en ignorant le bruit d'annotation omniprésent, également connu sous le nom de correspondance bruyante (Noisy Correspondence, NC), ce qui entraîne inévitablement une baisse des performances. Bien que certaines méthodes tentent de corriger ce bruit, elles font toujours face à deux problèmes majeurs : une mémoire excessive/surapprentissage et une correction non fiable de la NC, particulièrement sous un fort niveau de bruit. Pour résoudre ces deux problèmes, nous proposons un cadre généralisé d'Apprentissage Complémentaire Résilient Intermodal (Cross-modal Robust Complementary Learning, CRCL), qui bénéficie d'une nouvelle Perte Complémentaire Active (Active Complementary Loss, ACL) et d'une Correction de Correspondance Auto-affinée efficace (Self-refining Correspondence Correction, SCC) pour améliorer la robustesse des méthodes existantes. Plus précisément, l'ACL exploite des pertes d'apprentissage actives et complémentaires pour réduire le risque de fournir une supervision erronée, conduisant ainsi à une robustesse théoriquement et expérimentalement démontrée contre la NC. La SCC utilise plusieurs processus auto-affinés avec une correction par impulsion pour élargir le champ récepteur destiné à corriger les correspondances, atténuant ainsi l'accumulation d'erreurs et réalisant des corrections précises et stables. Nous menons des expériences approfondies sur trois benchmarks image-texte, à savoir Flickr30K, MS-COCO et CC152K, afin de vérifier la supériorité de notre CRCL face aux correspondances bruyantes synthétiques et réelles.

Apprentissage Actif Complémentaire Intermodal avec Affinement Auto-adaptatif de la Correspondance | Articles de recherche récents | HyperAI