Kreuzmodales aktives komplementäres Lernen mit selbstverfeinernder Korrespondenz

Kürzlich hat die Bild-Text-Zuordnung zunehmend mehr Aufmerksamkeit von der Akademie und der Industrie erfahren, da sie grundlegend für das Verständnis der latenten Korrespondenz zwischen visuellen und textuellen Modalitäten ist. Dennoch gehen die meisten existierenden Methoden implizit davon aus, dass die Trainingspaare gut ausgerichtet sind, während sie den allgegenwärtigen Annotierungsrauschen, auch bekannt als noisy correspondence (NC), vernachlässigen. Dies führt unvermeidlich zu einer Leistungsabnahme. Obwohl einige Methoden versuchen, dieses Rauschen zu behandeln, stehen sie immer noch vor zwei herausfordernden Problemen: übermäßigem Memorieren/Überanpassung und nicht vertrauenswürdiger Korrektur von NC, insbesondere bei hohem Rauschpegel. Um diese beiden Probleme anzugehen, schlagen wir ein generalisiertes Cross-modal Robust Complementary Learning-Framework (CRCL) vor, das von einem innovativen Active Complementary Loss (ACL) und einem effizienten Self-refining Correspondence Correction (SCC) profitiert, um die Robustheit bestehender Methoden zu verbessern. Insbesondere nutzt ACL aktive und komplementäre Lernverluste, um das Risiko fehlerhafter Supervision zu verringern, was sowohl theoretisch als auch experimentell nachgewiesene Robustheit gegenüber NC aufweist. SCC verwendet mehrere Selbstverfeinerungsprozesse mit Impulskorrektur, um das Rezeptivfeld für die Korrektur von Zuordnungen zu erweitern. Dadurch wird eine Fehlerakkumulation gemindert und präzise sowie stabile Korrekturen erreicht. Wir führen umfangreiche Experimente auf drei Bild-Text-Benchmarks durch – nämlich Flickr30K, MS-COCO und CC152K – um die überlegene Robustheit unseres CRCL gegenüber synthetischem und realweltlichen noisy correspondences zu verifizieren.