HyperAIHyperAI
vor 11 Tagen

Kreuzmodale Abfrage mit verrauschter Korrespondenz durch Konsistenzverfeinerung und Mining

{Xi Peng, Jiancheng Lv, Peng Hu, Yunfan Li, Mouxing Yang, Xinran Ma}
Abstract

Der Erfolg bestehender Methoden zur cross-modalen Retrieval (CMR) beruht stark auf der Annahme, dass die annotierten cross-modalen Korrespondenzen fehlerfrei sind. In der Praxis werden jedoch einige Paare während des Datensammlungs- oder Annotierungsprozesses zwangsläufig durch Rauschen beeinflusst, was das sogenannte Problem der „Noisy Correspondence“ (NC) verursacht. Um die Auswirkungen von NC zu mildern, schlagen wir eine neue Methode namens Consistency REfining And Mining (CREAM) vor, die die Differenz zwischen Korrespondenz und Konsistenz aufdeckt und nutzt. Konkret sind Korrespondenz und Konsistenz nur für wahre Positive und wahre Negative identisch, während sie sich bei falschen Positiven und falschen Negativen unterscheiden. Aufgrund dieser Beobachtung setzt CREAM ein kooperatives Lernparadigma ein, um die Korrespondenz von positiven Paaren zu erkennen und zu korrigieren, sowie einen Ansatz zur negativen Mining, um die Konsistenz zu erforschen und auszunutzen. Durch die Strategie der Konsistenzverfeinerung und -exploration in CREAM kann übermäßiges Overfitting an falschen Positiven verhindert und die in falschen Negativen enthaltene Konsistenz genutzt werden, was zu einer robusteren CMR-Methode führt. Umfangreiche Experimente bestätigen die Wirksamkeit unserer Methode an drei Bild-Text-Benchmark-Datensätzen: Flickr30K, MS-COCO und Conceptual Captions. Zudem integrieren wir unsere Methode in das Graph-Matching-Task, wobei die Ergebnisse die Robustheit gegenüber feinkörnigen NC-Problemen belegen. Der Quellcode ist unter https://github.com/XLearning-SCU/2024-TIP-CREAM verfügbar.

Kreuzmodale Abfrage mit verrauschter Korrespondenz durch Konsistenzverfeinerung und Mining | Neueste Forschungsarbeiten | HyperAI