HyperAIHyperAI
vor 2 Monaten

Fokale visuelle-tekstbasierte Aufmerksamkeit für visuelle Fragebeantwortung

Junwei Liang; Lu Jiang; Liangliang Cao; Li-Jia Li; Alexander Hauptmann
Fokale visuelle-tekstbasierte Aufmerksamkeit für visuelle Fragebeantwortung
Abstract

Neue Erkenntnisse zu Sprache und Vision mit neuronalen Netzen wurden erfolgreich auf einfache visuelle Fragebeantwortungsaufgaben für einzelne Bilder angewendet. Um jedoch realistische Fragebeantwortungsprobleme in multimedialen Sammlungen wie persönlichen Fotos zu lösen, müssen wir gesamte Sammlungen mit Foto- oder Videosequenzen betrachten. Bei der Beantwortung von Fragen aus einer großen Sammlung stellt sich das natürliche Problem, die relevanten Ausschnitte zu identifizieren, die die Antwort stützen. In dieser Arbeit beschreiben wir ein neuartiges neuronales Netzwerk namens Focal Visual-Text Attention Netzwerk (FVTA), das kollektives Schließen in der visuellen Fragebeantwortung ermöglicht, bei dem sowohl visuelle als auch textuelle Sequenzinformationen wie Bilder und Textmetadaten vorliegen. Das FVTA führt einen end-to-end Ansatz ein, der durch einen hierarchischen Prozess dynamisch bestimmt, auf welche Medien und welchen Zeitpunkt im sequentiellen Datenmaterial der Fokus gelegt werden soll, um die Frage zu beantworten. Das FVTA kann nicht nur die Fragen gut beantworten, sondern bietet auch die Begründungen, auf denen die Systemergebnisse basieren, um die Antworten zu erhalten. Das FVTA erzielt den aktuellen Stand der Technik (state-of-the-art) auf dem MemexQA-Datensatz und wettbewerbsfähige Ergebnisse auf dem MovieQA-Datensatz.

Fokale visuelle-tekstbasierte Aufmerksamkeit für visuelle Fragebeantwortung | Neueste Forschungsarbeiten | HyperAI