Lernen mit verrauschter Korrespondenz
Diese Arbeit untersucht ein neues Lernparadigma für fehlerhafte Etiketten, nämlich fehlerhafte Korrespondenz (Noisy Correspondence, NC). Im Gegensatz zu den gut untersuchten fehlerhaften Klassenetiketten, die Fehler in der Kategorienzuordnung eines Datensatzes betrachten, bezieht sich NC auf Fehler in der Zuordnungsbeziehung zwischen zwei Datenelementen. Obwohl solche falsch positiven Paare insbesondere bei aus dem Internet gesammelten Daten häufig vorkommen, werden sie von den meisten bestehenden Ansätzen bisher vernachlässigt. Anhand des Beispiels von cross-modalen Retrieval-Aufgaben stellen wir eine Methode namens Learning with Noisy Correspondence (LNC) vor. Kurz gesagt, ermittelt LNC zunächst grob saubere und fehlerhafte Teilmengen aus den ursprünglichen Daten und korrigiert anschließend die falsch positiven Paare mittels einer neuartigen adaptiven Vorhersagefunktion. Schließlich integriert LNC eine neuartige Triplet-Loss-Funktion mit weichen Grenzen, um das cross-modale Retrieval robuster gegenüber NC zu machen. Um die Wirksamkeit des vorgeschlagenen LNC nachzuweisen, führen wir Experimente auf sechs Benchmark-Datensätzen im Bereich Bild-Text- und Video-Text-Retrieval durch. Neben der Effektivität von LNC zeigen die experimentellen Ergebnisse zudem die Notwendigkeit einer expliziten Lösung für das NC-Problem, das nicht nur das herkömmliche Modelltrainingsparadigma, sondern auch die Pre-Training- und Fine-Tuning-Paradigmen betrifft.