HyperAI

Abstract

Die Kreuzmodalitäts-Übereinstimmung, die darauf abzielt, die Korrespondenz zwischen zwei verschiedenen Modalitäten herzustellen, ist grundlegend für eine Vielzahl von Aufgaben wie Kreuzmodalitätsretrieval und visuell-sprachliches Verständnis. Obwohl in den letzten Jahren eine große Anzahl von Methoden zur Kreuzmodalitäts-Übereinstimmung vorgeschlagen und beachtliche Fortschritte erzielt wurden, gehen fast alle dieser Ansätze implizit davon aus, dass die multimodalen Trainingsdaten korrekt ausgerichtet sind. In der Praxis ist diese Annahme jedoch äußerst kostspielig und oft gar nicht erfüllbar. Aus dieser Beobachtung heraus identifizieren und untersuchen wir eine bisher unterschätzte und herausfordernde Richtung innerhalb der Kreuzmodalitäts-Übereinstimmung, die als „noisy correspondence“ (störende Korrespondenz) bezeichnet wird und als ein neues Paradigma für verrauschte Labels angesehen werden kann. Im Gegensatz zu den klassischen verrauschten Labels, die hauptsächlich Fehler in den Kategorielabels beinhalten, bezieht sich unsere „noisy correspondence“ auf inkorrekt gepaarte Datensätze. Um dieses neue Problem zu lösen, schlagen wir eine neuartige Methode zum Lernen mit störender Korrespondenz vor, die als Noisy Correspondence Rectifier (NCR) bezeichnet wird. Kurz gesagt, teilt NCR die Daten basierend auf dem Memorisationseffekt von neuronalen Netzen in saubere und verrauschte Teile auf und korrigiert die Korrespondenz durch ein adaptives Vorhersagemodell in einer Co-Teaching-Weise. Zur Überprüfung der Wirksamkeit unserer Methode führen wir Experimente am Beispiel der Bild-Text-Übereinstimmung durch. Umfangreiche Experimente an den Datensätzen Flickr30K, MS-COCO und Conceptual Captions bestätigen die Effektivität unseres Ansatzes. Der Quellcode ist unter www.pengxi.me verfügbar.

Benchmarks

Benchmark	Methodik	Metriken
cross-modal-retrieval-with-noisy-1	NCR	Image-to-text R@1: 39.5 Image-to-text R@10: 73.5 Image-to-text R@5: 64.5 R-Sum: 355.6 Text-to-image R@1: 40.3 Text-to-image R@10: 73.2 Text-to-image R@5: 64.6
cross-modal-retrieval-with-noisy-2	NCR	Image-to-text R@1: 75.0 Image-to-text R@10: 97.5 Image-to-text R@5: 93.9 R-Sum: 496.7 Text-to-image R@1: 58.3 Text-to-image R@10: 89.0 Text-to-image R@5: 83.0
cross-modal-retrieval-with-noisy-3	NCR	Image-to-text R@1: 77.7 Image-to-text R@10: 98.2 Image-to-text R@5: 95.5 R-Sum: 518.5 Text-to-image R@1: 62.5 Text-to-image R@10: 95.3 Text-to-image R@5: 89.3

Lernen mit verrauschter Korrespondenz für die cross-modale Übereinstimmung

{Xi Peng Hua Wu Xinyan Xiao Wenbiao Ding Xiao Liu guocheng niu Zhenyu Huang}

Abstract

Benchmarks

KI mit KI entwickeln

Hyper Newsletters

Command Palette

Lernen mit verrauschter Korrespondenz für die cross-modale Übereinstimmung

{Xi Peng Hua Wu Xinyan Xiao Wenbiao Ding Xiao Liu guocheng niu Zhenyu Huang}

Abstract

Benchmarks

KI mit KI entwickeln

Hyper Newsletters