HyperAIHyperAI

Command Palette

Search for a command to run...

Fokale visuelle-tekstbasierte Aufmerksamkeit für visuelle Fragebeantwortung

Junwei Liang Lu Jiang Liangliang Cao Li-Jia Li Alexander Hauptmann

Zusammenfassung

Neue Erkenntnisse zu Sprache und Vision mit neuronalen Netzen wurden erfolgreich auf einfache visuelle Fragebeantwortungsaufgaben für einzelne Bilder angewendet. Um jedoch realistische Fragebeantwortungsprobleme in multimedialen Sammlungen wie persönlichen Fotos zu lösen, müssen wir gesamte Sammlungen mit Foto- oder Videosequenzen betrachten. Bei der Beantwortung von Fragen aus einer großen Sammlung stellt sich das natürliche Problem, die relevanten Ausschnitte zu identifizieren, die die Antwort stützen. In dieser Arbeit beschreiben wir ein neuartiges neuronales Netzwerk namens Focal Visual-Text Attention Netzwerk (FVTA), das kollektives Schließen in der visuellen Fragebeantwortung ermöglicht, bei dem sowohl visuelle als auch textuelle Sequenzinformationen wie Bilder und Textmetadaten vorliegen. Das FVTA führt einen end-to-end Ansatz ein, der durch einen hierarchischen Prozess dynamisch bestimmt, auf welche Medien und welchen Zeitpunkt im sequentiellen Datenmaterial der Fokus gelegt werden soll, um die Frage zu beantworten. Das FVTA kann nicht nur die Fragen gut beantworten, sondern bietet auch die Begründungen, auf denen die Systemergebnisse basieren, um die Antworten zu erhalten. Das FVTA erzielt den aktuellen Stand der Technik (state-of-the-art) auf dem MemexQA-Datensatz und wettbewerbsfähige Ergebnisse auf dem MovieQA-Datensatz.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Fokale visuelle-tekstbasierte Aufmerksamkeit für visuelle Fragebeantwortung | Paper | HyperAI