HyperAIHyperAI
vor 11 Tagen

Cross-Modal Retrieval mit teilweise unübereinstimmenden Paaren

{Xi Peng, Xu Wang, Dezhong Peng, Zhenyu Huang, Peng Hu}
Abstract

In diesem Artikel untersuchen wir ein herausforderndes, jedoch wenig beachtetes Problem im Bereich der cross-modalen Retrieval, nämlich teilweise unpassende Paare (Partially Mismatched Pairs, PMPs). Insbesondere werden in realen Anwendungsszenarien eine große Menge an Multimedia-Daten (z. B. der Conceptual Captions-Datensatz) aus dem Internet gesammelt, wodurch es unvermeidlich ist, dass einige inkonsistente cross-modale Paare fälschlicherweise als zugehörig betrachtet werden. Unbestritten verschlechtert sich durch dieses PMP-Problem die Leistungsfähigkeit des cross-modalen Retrievals erheblich. Um dieses Problem anzugehen, leiten wir einen einheitlichen theoretischen Rahmen für robuste cross-modale Lernverfahren (Robust Cross-modal Learning, RCL) ab, der einen verzerrungsfreien Schätzer des cross-modalen Retrieval-Risikos beinhaltet und darauf abzielt, cross-modale Retrieval-Methoden robuster gegenüber PMPs zu machen. Genauer betrachtet nutzt unser RCL ein neuartiges komplementäres kontrastives Lernparadigma, um zwei zentrale Herausforderungen zu bewältigen: das Überanpassungs- und das Unteranpassungsproblem. Einerseits nutzt unsere Methode ausschließlich negative Informationen, die im Vergleich zu positiven Informationen viel unwahrscheinlicher falsch sind, wodurch das Überanpassungsproblem an PMPs vermieden wird. Andererseits können solche Robustheitsstrategien jedoch zu Unteranpassungsproblemen führen, was die Modelltrainierung erschweren kann. Um dieses Unteranpassungsproblem, das durch schwache Supervision verursacht wird, zu beheben, schlagen wir vor, alle verfügbaren negativen Paare zu nutzen, um die Supervision in den negativen Informationen zu stärken. Darüber hinaus schlagen wir vor, die oberen Schranken des Risikos zu minimieren, um besonderes Augenmerk auf schwierige (hard) Samples zu legen und die Leistung weiter zu verbessern. Um die Wirksamkeit und Robustheit des vorgeschlagenen Ansatzes zu validieren, führen wir umfassende Experimente auf fünf etablierten Benchmark-Datensätzen durch und vergleichen ihn mit neun state-of-the-art-Methoden im Kontext von Bild-Text- und Video-Text-Retrieval. Der Quellcode ist unter https://github.com/penghu-cs/RCL verfügbar.

Cross-Modal Retrieval mit teilweise unübereinstimmenden Paaren | Neueste Forschungsarbeiten | HyperAI