HyperAIHyperAI

Command Palette

Search for a command to run...

Stacked Attention Networks für Bildfragenbeantwortung

Zichao Yang Xiaodong He Jianfeng Gao Li Deng Alex Smola

Zusammenfassung

Dieses Papier stellt gestapelte Aufmerksamkeitsnetzwerke (SANs) vor, die gelernt haben, natürlichsprachliche Fragen anhand von Bildern zu beantworten. SANs verwenden die semantische Repräsentation einer Frage als Abfrage, um die Bereiche in einem Bild zu suchen, die mit der Antwort in Verbindung stehen. Wir argumentieren, dass das Beantworten von Fragen zu Bildern (QA) oft mehrere Schritte des Denkprozesses erfordert. Daher entwickeln wir ein mehrschichtiges SAN, bei dem wir ein Bild mehrfach abfragen, um die Antwort schrittweise zu ermitteln. Experimente anhand von vier QA-Datensätzen für Bilder zeigen, dass die vorgeschlagenen SANs signifikant bessere Ergebnisse als bisherige Stand der Technik-Methoden erzielen. Die Visualisierung der Aufmerksamkeitsschichten veranschaulicht den Fortschritt, den das SAN macht, indem es schichtweise die relevanten visuellen Hinweise findet, die zur Antwort auf die Frage führen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp