HyperAIHyperAI

Command Palette

Search for a command to run...

vor 4 Monaten

Lernen mit verrauschter Korrespondenz für die cross-modale Übereinstimmung

{Xi Peng Hua Wu Xinyan Xiao Wenbiao Ding Xiao Liu guocheng niu Zhenyu Huang}

Lernen mit verrauschter Korrespondenz für die cross-modale Übereinstimmung

Abstract

Die Kreuzmodalitäts-Übereinstimmung, die darauf abzielt, die Korrespondenz zwischen zwei verschiedenen Modalitäten herzustellen, ist grundlegend für eine Vielzahl von Aufgaben wie Kreuzmodalitätsretrieval und visuell-sprachliches Verständnis. Obwohl in den letzten Jahren eine große Anzahl von Methoden zur Kreuzmodalitäts-Übereinstimmung vorgeschlagen und beachtliche Fortschritte erzielt wurden, gehen fast alle dieser Ansätze implizit davon aus, dass die multimodalen Trainingsdaten korrekt ausgerichtet sind. In der Praxis ist diese Annahme jedoch äußerst kostspielig und oft gar nicht erfüllbar. Aus dieser Beobachtung heraus identifizieren und untersuchen wir eine bisher unterschätzte und herausfordernde Richtung innerhalb der Kreuzmodalitäts-Übereinstimmung, die als „noisy correspondence“ (störende Korrespondenz) bezeichnet wird und als ein neues Paradigma für verrauschte Labels angesehen werden kann. Im Gegensatz zu den klassischen verrauschten Labels, die hauptsächlich Fehler in den Kategorielabels beinhalten, bezieht sich unsere „noisy correspondence“ auf inkorrekt gepaarte Datensätze. Um dieses neue Problem zu lösen, schlagen wir eine neuartige Methode zum Lernen mit störender Korrespondenz vor, die als Noisy Correspondence Rectifier (NCR) bezeichnet wird. Kurz gesagt, teilt NCR die Daten basierend auf dem Memorisationseffekt von neuronalen Netzen in saubere und verrauschte Teile auf und korrigiert die Korrespondenz durch ein adaptives Vorhersagemodell in einer Co-Teaching-Weise. Zur Überprüfung der Wirksamkeit unserer Methode führen wir Experimente am Beispiel der Bild-Text-Übereinstimmung durch. Umfangreiche Experimente an den Datensätzen Flickr30K, MS-COCO und Conceptual Captions bestätigen die Effektivität unseres Ansatzes. Der Quellcode ist unter www.pengxi.me verfügbar.

Benchmarks

BenchmarkMethodikMetriken
cross-modal-retrieval-with-noisy-1NCR
Image-to-text R@1: 39.5
Image-to-text R@10: 73.5
Image-to-text R@5: 64.5
R-Sum: 355.6
Text-to-image R@1: 40.3
Text-to-image R@10: 73.2
Text-to-image R@5: 64.6
cross-modal-retrieval-with-noisy-2NCR
Image-to-text R@1: 75.0
Image-to-text R@10: 97.5
Image-to-text R@5: 93.9
R-Sum: 496.7
Text-to-image R@1: 58.3
Text-to-image R@10: 89.0
Text-to-image R@5: 83.0
cross-modal-retrieval-with-noisy-3NCR
Image-to-text R@1: 77.7
Image-to-text R@10: 98.2
Image-to-text R@5: 95.5
R-Sum: 518.5
Text-to-image R@1: 62.5
Text-to-image R@10: 95.3
Text-to-image R@5: 89.3

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Lernen mit verrauschter Korrespondenz für die cross-modale Übereinstimmung | Forschungsarbeiten | HyperAI