NAC: Verminderung von Rauschkorrespondenzen bei der cross-modalen Übereinstimmung mittels Nachbarn-Hilfskorrektor
Die Anwesenheit von verrauschten Korrespondenzen innerhalb der cross-modal-Übereinstimmung hat die Leistung bestehender Übereinstimmungsmethoden erheblich beeinträchtigt. In diesem Artikel stellen wir einen robusten Rahmen namens Neighbor Auxiliary Corrector (NAC) vor, der Rauschen durch Ausnutzung von Nachbarn reduziert, die auf ähnliche Textziele hinweisen. NAC basiert auf der Beobachtung, dass ähnliche Texte tendenziell ähnlichen Bildern entsprechen. Unter Ausnutzung der Zero-shot-Fähigkeiten vortrainierter Sprachmodelle (Pre-trained Language Models, PLMs) identifizieren wir für jedes positive Bild-Text-Paar die k nächsten Nachbarn. Anschließend wird die zusätzliche Information dieser Nachbarn sowohl zur Stichprobenverifikation als auch zur Stichprobenkorrektur genutzt. Umfangreiche Experimente auf Benchmark-Datensätzen zeigen, dass unser Rahmen die Leistung signifikant steigern und gegenüber verschiedenen Rauschniveaus bei der Korrespondenz robuster sein kann.