HyperAIHyperAI
vor 2 Monaten

Lernen mit Rauschender Korrespondenz und Metasimilaritätskorrektur

Han, Haochen ; Miao, Kaiyao ; Zheng, Qinghua ; Luo, Minnan
Lernen mit Rauschender Korrespondenz und Metasimilaritätskorrektur
Abstract

Trotz des Erfolgs des multimodalen Lernens bei der cross-modalen Retrieval-Aufgabe hängt der bemerkenswerte Fortschritt von der korrekten Korrespondenz zwischen multimedialen Daten ab. Allerdings ist das Sammeln solcher idealen Daten kostspielig und zeitaufwendig. In der Praxis werden die meist verwendeten Datensätze aus dem Internet gewonnen und enthalten unvermeidlich fehlerhafte Paare. Das Training auf solchen verrauschten Korrespondenzdatensätzen führt zu einer Leistungsverschlechterung, da die cross-modalen Retrieval-Methoden fehlerhafte Daten fälschlicherweise als ähnlich erzwingen können. Um dieses Problem anzugehen, schlagen wir ein Meta Similarity Correction Network (MSCN) vor, um verlässliche Ähnlichkeitsscores bereitzustellen. Wir betrachten eine binäre Klassifizierungsaufgabe als Metaprozess, der das MSCN dazu anregt, Diskriminierung zwischen positiven und negativen Metadaten zu lernen. Um den Einfluss von Rauschen weiter zu verringern, haben wir eine effektive Datenreinigungsstrategie entwickelt, die Metadaten als Vorwissen verwendet, um die verrauschten Stichproben zu entfernen. Ausführliche Experimente wurden durchgeführt, um die Stärken unserer Methode sowohl bei synthetischem als auch bei realweltlichem Rauschen zu demonstrieren, einschließlich Flickr30K, MS-COCO und Conceptual Captions.