HyperAIHyperAI
vor 2 Monaten

Stacked Attention Networks für Bildfragenbeantwortung

Zichao Yang; Xiaodong He; Jianfeng Gao; Li Deng; Alex Smola
Stacked Attention Networks für Bildfragenbeantwortung
Abstract

Dieses Papier stellt gestapelte Aufmerksamkeitsnetzwerke (SANs) vor, die gelernt haben, natürlichsprachliche Fragen anhand von Bildern zu beantworten. SANs verwenden die semantische Repräsentation einer Frage als Abfrage, um die Bereiche in einem Bild zu suchen, die mit der Antwort in Verbindung stehen. Wir argumentieren, dass das Beantworten von Fragen zu Bildern (QA) oft mehrere Schritte des Denkprozesses erfordert. Daher entwickeln wir ein mehrschichtiges SAN, bei dem wir ein Bild mehrfach abfragen, um die Antwort schrittweise zu ermitteln. Experimente anhand von vier QA-Datensätzen für Bilder zeigen, dass die vorgeschlagenen SANs signifikant bessere Ergebnisse als bisherige Stand der Technik-Methoden erzielen. Die Visualisierung der Aufmerksamkeitsschichten veranschaulicht den Fortschritt, den das SAN macht, indem es schichtweise die relevanten visuellen Hinweise findet, die zur Antwort auf die Frage führen.