HyperAIHyperAI
vor 17 Tagen

CAMP: Cross-Modal Adaptive Message Passing für Text-Bild-Retrieval

Zihao Wang, Xihui Liu, Hongsheng Li, Lu Sheng, Junjie Yan, Xiaogang Wang, Jing Shao
CAMP: Cross-Modal Adaptive Message Passing für Text-Bild-Retrieval
Abstract

Text-Bild-Überkreuzmodalitätsabfrage ist eine herausfordernde Aufgabe im Bereich Sprache und Vision. Die meisten bisherigen Ansätze verankern Bilder und Sätze unabhängig voneinander in einem gemeinsamen Embedding-Raum und vergleichen anschließend deren Ähnlichkeit. Allerdings untersuchen diese Ansätze selten die Wechselwirkungen zwischen Bildern und Sätzen, bevor die Ähnlichkeit im gemeinsamen Raum berechnet wird. Intuitiv würden Menschen beim Matching von Bildern und Sätzen abwechselnd auf Regionen im Bild und Wörter im Satz achten und die auffälligsten Informationen auswählen, wobei sie die Interaktion beider Modalitäten berücksichtigen. In diesem Artikel stellen wir Cross-modal Adaptive Message Passing (CAMP) vor, das den Informationsfluss bei der Nachrichtenübertragung zwischen Modalitäten adaptiv steuert. Unser Ansatz berücksichtigt nicht nur umfassende und fein granulare Wechselwirkungen zwischen Modalitäten, sondern behandelt auch negative Paare und irrelevante Informationen angemessen durch ein adaptives Gating-Schema. Zudem leiten wir im Gegensatz zu herkömmlichen gemeinsamen Embedding-Ansätzen zur Text-Bild-Übereinstimmung die Übereinstimmungsscores auf Basis gefundener Merkmale ab und schlagen eine härteste-negative-Binär-Kreuzentropie-Verlustfunktion zur Trainingsoptimierung vor. Die Ergebnisse auf COCO und Flickr30k übertreffen signifikant die der State-of-the-Art-Methoden und belegen die Wirksamkeit unseres Ansatzes.