Lernen mit verrauschter Korrespondenz für die cross-modale Übereinstimmung

Die Kreuzmodalitäts-Übereinstimmung, die darauf abzielt, die Korrespondenz zwischen zwei verschiedenen Modalitäten herzustellen, ist grundlegend für eine Vielzahl von Aufgaben wie Kreuzmodalitätsretrieval und visuell-sprachliches Verständnis. Obwohl in den letzten Jahren eine große Anzahl von Methoden zur Kreuzmodalitäts-Übereinstimmung vorgeschlagen und beachtliche Fortschritte erzielt wurden, gehen fast alle dieser Ansätze implizit davon aus, dass die multimodalen Trainingsdaten korrekt ausgerichtet sind. In der Praxis ist diese Annahme jedoch äußerst kostspielig und oft gar nicht erfüllbar. Aus dieser Beobachtung heraus identifizieren und untersuchen wir eine bisher unterschätzte und herausfordernde Richtung innerhalb der Kreuzmodalitäts-Übereinstimmung, die als „noisy correspondence“ (störende Korrespondenz) bezeichnet wird und als ein neues Paradigma für verrauschte Labels angesehen werden kann. Im Gegensatz zu den klassischen verrauschten Labels, die hauptsächlich Fehler in den Kategorielabels beinhalten, bezieht sich unsere „noisy correspondence“ auf inkorrekt gepaarte Datensätze. Um dieses neue Problem zu lösen, schlagen wir eine neuartige Methode zum Lernen mit störender Korrespondenz vor, die als Noisy Correspondence Rectifier (NCR) bezeichnet wird. Kurz gesagt, teilt NCR die Daten basierend auf dem Memorisationseffekt von neuronalen Netzen in saubere und verrauschte Teile auf und korrigiert die Korrespondenz durch ein adaptives Vorhersagemodell in einer Co-Teaching-Weise. Zur Überprüfung der Wirksamkeit unserer Methode führen wir Experimente am Beispiel der Bild-Text-Übereinstimmung durch. Umfangreiche Experimente an den Datensätzen Flickr30K, MS-COCO und Conceptual Captions bestätigen die Effektivität unseres Ansatzes. Der Quellcode ist unter www.pengxi.me verfügbar.