Gestapelte Kreuzaufmerksamkeit für Bild-Text-Zuordnung

In dieser Arbeit untersuchen wir das Problem der Bild-Text-Zuordnung. Die Inferenz der latenten semantischen Ausrichtung zwischen Objekten oder anderen auffälligen Elementen (z.B. Schnee, Himmel, Rasen) und den entsprechenden Wörtern in Sätzen ermöglicht es, die feingranulare Interaktion zwischen Vision und Sprache zu erfassen und macht die Bild-Text-Zuordnung verständlicher. Frühere Arbeiten entweder aggregieren einfach die Ähnlichkeit aller möglichen Regionen-Wort-Paare, ohne differenziert auf wichtige und weniger wichtige Wörter oder Regionen zu achten, oder sie verwenden einen mehrstufigen Aufmerksamkeitsprozess, um eine begrenzte Anzahl von semantischen Ausrichtungen zu erfassen, was weniger interpretierbar ist. In dieser Arbeit stellen wir Stacked Cross Attention vor, um die vollständigen latenten Ausrichtungen unter Verwendung sowohl von Bildregionen als auch von Wörtern in einem Satz als Kontext zu entdecken und die Bild-Text-Ähnlichkeit zu inferieren. Unser Ansatz erzielt die besten bisher bekannten Ergebnisse auf den Datensätzen MS-COCO und Flickr30K. Auf Flickr30K übertrifft unser Ansatz die aktuellen besten Methoden bei der Text-Retrieval aus Bildanfragen um 22,1 % relativ und bei der Bild-Retrieval mit Textanfragen um 18,2 % relativ (basiert auf Recall@1). Auf MS-COCO verbessert unser Ansatz die Satz-Retrieval um 17,8 % relativ und die Bild-Retrieval um 16,6 % relativ (basiert auf Recall@1 unter Verwendung des 5K Testsets). Der Quellcode ist unter folgender URL verfügbar: https://github.com/kuanghuei/SCAN.