HyperAIHyperAI

Command Palette

Search for a command to run...

IMRAM: Iterative Matching with Recurrent Attention Memory for Cross-Modal Image-Text Retrieval

Hui Chen Guiguang Ding Xudong Liu Zijia Lin Ji Liu Jungong Han

Zusammenfassung

Die Möglichkeit der bidirektionalen Suche nach Bildern und Texten ist entscheidend für das Verständnis der Korrespondenz zwischen Vision und Sprache. Bestehende Methoden nutzen Mechanismen der Aufmerksamkeit, um diese Korrespondenz feinabgestuft zu erforschen. Allerdings berücksichtigen die meisten von ihnen alle Semantik gleichwertig und führen somit eine einheitliche Ausrichtung durch, unabhängig von den unterschiedlichen Komplexitäten der Inhalte. Tatsächlich sind Semantiken vielfältig (d. h. sie beinhalten verschiedene Arten semantischer Konzepte), und Menschen folgen in der Regel einer latenten Struktur, um diese zu verknüpfen und verständliche Sprache zu bilden. Es ist daher schwierig, solche komplexen Korrespondenzen in bestehenden Methoden optimal zu erfassen. Um diese Schwäche zu beheben, schlagen wir in diesem Artikel eine Methode namens Iterative Matching mit rekurrentem Aufmerksamkeitsgedächtnis (IMRAM) vor, bei der die Korrespondenzen zwischen Bildern und Texten über mehrere Schritte der Ausrichtung erfasst werden. Konkret führen wir ein iteratives Matching-Schema ein, um die feinabgestufte Korrespondenz schrittweise zu erforschen. Ein Gedächtnis-Destillationseinheit dient dazu, die Ausrichtungswissen aus früheren Schritten auf späteren Schritten zu verfeinern. Experimentelle Ergebnisse auf drei Standard-Datensätzen – Flickr8K, Flickr30K und MS COCO – zeigen, dass unsere IMRAM die derzeit beste Leistung erzielt und somit ihre Wirksamkeit überzeugend belegt. Zudem bestätigen Experimente auf einem praktischen Geschäfts-Werbe-Datensatz namens \Ads{} die Anwendbarkeit unserer Methode in realen Szenarien.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
IMRAM: Iterative Matching with Recurrent Attention Memory for Cross-Modal Image-Text Retrieval | Paper | HyperAI