Ähnlichkeitsbasiertes Schließen und Filterung für die Bild-Text-Zuordnung

Die Bild-Text-Zuordnung spielt eine entscheidende Rolle bei der Verbindung von Vision und Sprache, und durch die Nutzung der globalen Ausrichtung zwischen Bild und Satz oder der lokalen Ausrichtungen zwischen Bildregionen und Wörtern wurde bereits erheblicher Fortschritt erzielt. Dennoch bleibt die Frage, wie diese Ausrichtungen optimal genutzt werden können, um präzisere Zuordnungsscores zu erzielen, weiterhin unerforscht. In diesem Paper stellen wir ein neuartiges Netzwerk namens Similarity Graph Reasoning and Attention Filtration (SGRAF) für die Bild-Text-Zuordnung vor. Konkret werden zunächst vektorbasierte Similaritätsrepräsentationen gelernt, um sowohl lokale als auch globale Ausrichtungen umfassender zu charakterisieren. Anschließend wird die Similarity Graph Reasoning (SGR)-Modul eingeführt, das auf einem Graph Convolutional Neural Network basiert und relationenbewusste Similaritäten unter Berücksichtigung sowohl lokaler als auch globaler Ausrichtungen ermittelt. Darüber hinaus wird das Similarity Attention Filtration (SAF)-Modul entwickelt, das diese Ausrichtungen effektiv integriert, indem es gezielt auf bedeutende und repräsentative Ausrichtungen fokussiert und gleichzeitig Störungen durch unbedeutende Ausrichtungen unterdrückt. Wir belegen die Überlegenheit des vorgeschlagenen Ansatzes durch herausragende Ergebnisse auf den Datensätzen Flickr30K und MSCOCO sowie durch umfassende qualitative Experimente und Analysen, die die gute Interpretierbarkeit der SGR- und SAF-Module unterstreichen.