Das Lernen der Neuzuordnung fehlgeschlagener Paare für eine robuste multimodale Retrieval

Die Sammlung gut abgestimmter multimedialer Datensätze ist entscheidend für das Training von cross-modalen Retrieval-Modellen. In realen Szenarien werden jedoch große Mengen an multimodalen Daten aus dem Internet gewonnen, die unvermeidlich teilweise fehlerhafte Paare (Partially Mismatched Pairs, PMPs) enthalten. Zweifellos werden solche semantisch irrelevanten Daten die Leistung der cross-modalen Retrieval-Modelle erheblich beeinträchtigen. Frühere Ansätze versuchten, dieses Problem durch die Schätzung einer weichen Korrespondenz zu mildern, um den Beitrag der PMPs abzuschwächen. In dieser Arbeit zielen wir darauf ab, diese Herausforderung aus einer neuen Perspektive anzugehen: Die potentielle semantische Ähnlichkeit unter unverbundenen Stichproben ermöglicht es, nützliches Wissen aus fehlerhaften Paaren zu extrahieren. Um dies zu erreichen, schlagen wir L2RM vor, einen allgemeinen Framework basierend auf optimaler Transporttheorie (Optimal Transport, OT), das das Neuparieren von fehlerhaften Paaren lernt. Im Detail strebt L2RM an, verfeinerte Zuordnungen durch die Suche nach einem minimalen Transportplan zwischen verschiedenen Modalitäten zu generieren. Um die Idee des Neuparierens in der OT zu formalisieren, schlagen wir zunächst eine selbstüberwachte Kostenfunktion vor, die automatisch aus der expliziten Beziehung zwischen Ähnlichkeitskosten und Abbildung lernt. Zweitens präsentieren wir ein Modell für ein partielles OT-Problem, während wir den Transport unter Fehlpositiven einschränken, um verfeinerte Zuordnungen weiter zu verbessern. Ausführliche Experimente auf drei Benchmarks zeigen, dass unser L2RM die Robustheit gegen PMPs bestehender Modelle erheblich erhöht. Der Code ist unter https://github.com/hhc1997/L2RM verfügbar.