il y a 4 mois

Récupération multimodale avec correspondance bruitée par raffinement de cohérence et exploration

Voir les détails de l'article Voir le code

{Xi Peng Jiancheng Lv Peng Hu Yunfan Li Mouxing Yang Xinran Ma}

Résumé

L’efficacité des méthodes actuelles de récupération cross-modale (CMR) repose fortement sur l’hypothèse selon laquelle les correspondances annotées entre modalités sont parfaites. En pratique, toutefois, certaines paires de correspondances sont inévitablement contaminées lors de la collecte ou de l’annotation des données, donnant lieu au problème dit de « Correspondance Bruitée » (NC). Pour atténuer l’impact de ce problème, nous proposons une nouvelle méthode, nommée Consistency REfining And Mining (CREAM), qui exploite la différence entre correspondance et cohérence. Plus précisément, la correspondance et la cohérence ne coïncident que pour les paires vrais positifs et vrais négatifs, tandis qu’elles diffèrent pour les faux positifs et faux négatifs. À partir de cette observation, CREAM met en œuvre un paradigme d’apprentissage collaboratif afin de détecter et corriger les correspondances des paires positives, ainsi qu’une stratégie d’exploitation des négatifs pour explorer et tirer parti de la cohérence. Grâce à sa stratégie de raffinement et d’exploitation de la cohérence, CREAM permet de prévenir le surajustement aux faux positifs tout en exploitant la cohérence inhérente aux faux négatifs, conduisant ainsi à une méthode de CMR robuste. Des expériences étendues confirment l’efficacité de notre approche sur trois benchmarks image-texte : Flickr30K, MS-COCO et Conceptual Captions. En outre, nous avons appliqué notre méthode à la tâche d’appariement de graphes, où les résultats démontrent sa robustesse face au problème de bruit de correspondance à fort grain. Le code source est disponible à l’adresse suivante : https://github.com/XLearning-SCU/2024-TIP-CREAM.

Benchmarks

Benchmark	Méthodologie	Métriques
cross-modal-retrieval-with-noisy-1	CREAM	Image-to-text R@1: 40.3 Image-to-text R@10: 77.1 Image-to-text R@5: 68.5 R-Sum: 372.6 Text-to-image R@1: 40.2 Text-to-image R@10: 78.3 Text-to-image R@5: 68.2
cross-modal-retrieval-with-noisy-2	CREAM	Image-to-text R@1: 77.4 Image-to-text R@10: 97.3 Image-to-text R@5: 95.0 R-Sum: 502.3 Text-to-image R@1: 58.7 Text-to-image R@10: 89.8 Text-to-image R@5: 84.1
cross-modal-retrieval-with-noisy-3	CREAM	Image-to-text R@1: 78.9 Image-to-text R@10: 98.6 Image-to-text R@5: 96.3 R-Sum: 523 Text-to-image R@1: 63.3 Text-to-image R@10: 95.8 Text-to-image R@5: 90.1
graph-matching-on-pascal-voc	CREAM	matching accuracy: 0.814
graph-matching-on-spair-71k	CREAM	matching accuracy: 0.851
graph-matching-on-willow-object-class	CREAM	matching accuracy: 0.988

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA

GPU prêts à utiliser

Meilleurs prix

Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp