IMRAM: Iterative Matching with Recurrent Attention Memory for Cross-Modal Image-Text Retrieval

Die Möglichkeit der bidirektionalen Suche nach Bildern und Texten ist entscheidend für das Verständnis der Korrespondenz zwischen Vision und Sprache. Bestehende Methoden nutzen Mechanismen der Aufmerksamkeit, um diese Korrespondenz feinabgestuft zu erforschen. Allerdings berücksichtigen die meisten von ihnen alle Semantik gleichwertig und führen somit eine einheitliche Ausrichtung durch, unabhängig von den unterschiedlichen Komplexitäten der Inhalte. Tatsächlich sind Semantiken vielfältig (d. h. sie beinhalten verschiedene Arten semantischer Konzepte), und Menschen folgen in der Regel einer latenten Struktur, um diese zu verknüpfen und verständliche Sprache zu bilden. Es ist daher schwierig, solche komplexen Korrespondenzen in bestehenden Methoden optimal zu erfassen. Um diese Schwäche zu beheben, schlagen wir in diesem Artikel eine Methode namens Iterative Matching mit rekurrentem Aufmerksamkeitsgedächtnis (IMRAM) vor, bei der die Korrespondenzen zwischen Bildern und Texten über mehrere Schritte der Ausrichtung erfasst werden. Konkret führen wir ein iteratives Matching-Schema ein, um die feinabgestufte Korrespondenz schrittweise zu erforschen. Ein Gedächtnis-Destillationseinheit dient dazu, die Ausrichtungswissen aus früheren Schritten auf späteren Schritten zu verfeinern. Experimentelle Ergebnisse auf drei Standard-Datensätzen – Flickr8K, Flickr30K und MS COCO – zeigen, dass unsere IMRAM die derzeit beste Leistung erzielt und somit ihre Wirksamkeit überzeugend belegt. Zudem bestätigen Experimente auf einem praktischen Geschäfts-Werbe-Datensatz namens \Ads{} die Anwendbarkeit unserer Methode in realen Szenarien.