Duales Aufmerksamkeitsnetzwerk für multimodales Schließen und Matching

Wir schlagen Dual Attention Networks (DANs) vor, die visuelle und textuelle Aufmerksamkeitsmechanismen gemeinsam nutzen, um die feingranulare Wechselwirkung zwischen Vision und Sprache zu erfassen. DANs richten ihre Aufmerksamkeit in mehreren Schritten auf spezifische Bereiche in Bildern und Wörter im Text und sammeln dabei wesentliche Informationen aus beiden Modalitäten. Basierend auf diesem Framework führen wir zwei Arten von DANs ein, die jeweils für multimodales Schließen und Abgleichen konzipiert sind. Das Schließmodell ermöglicht es, dass visuelle und textuelle Aufmerksamkeiten sich gegenseitig steuern, während sie zusammenarbeiten, um Schlussfolgerungen zu ziehen. Dies ist nützlich für Aufgaben wie das Visuelle Fragenbeantworten (VQA). Zudem nutzt das Abgleichungsmodell die beiden Aufmerksamkeitsmechanismen, um die Ähnlichkeit zwischen Bildern und Sätzen durch Fokus auf ihre gemeinsamen Semantiken abzuschätzen. Unsere umfangreichen Experimente bestätigen die Effektivität von DANs bei der Kombination von Vision und Sprache und zeigen eine Spitzenleistung bei öffentlichen Benchmarks für VQA und Bild-Text-Abgleich.