HyperAIHyperAI
vor 12 Tagen

Fokussierte visuell-Text-Attention für Memex-Fragebeantwortung

{Li-Jia Li, Yannis Kalantidis, Junwei Liang, and Alexander Hauptmann, Lu Jiang, Liangliang Cao}
Abstract

Neue Erkenntnisse über Sprache und Vision mit neuronalen Netzwerken wurden erfolgreich auf einfache, einbildbasierte visuelle Fragebeantwortung angewendet. Um jedoch praktische Fragebeantwortungsaufgaben in multimedialen Sammlungen wie persönlichen Fotogalerien zu bewältigen, müssen wir ganze Sammlungen mit Folgen von Fotos betrachten. In diesem Artikel wird eine neue multimodale Aufgabe namens MemexQA vorgestellt: Gegeben eine Folge von Fotos eines Nutzers soll das System automatisch Fragen beantworten, die den Nutzer dabei unterstützen, seine Erinnerungen an ein Ereignis, das in diesen Fotos festgehalten ist, wiederherzustellen. Neben einer Textantwort werden zudem einige fundierende Fotos bereitgestellt, um die Antwort zu begründen. Diese fundierenden Fotos sind notwendig, da sie den Nutzern helfen, die Antwort schnell zu überprüfen. Um die Aufgabe zu lösen, 1) präsentieren wir die MemexQA-Datenbank, die erste öffentlich verfügbare multimodale Fragebeantwortungsdatenbank, die echte persönliche Fotogalerien enthält; 2) schlagen wir ein end-to-end trainierbares Netzwerk vor, das einen hierarchischen Prozess nutzt, um dynamisch zu bestimmen, auf welche Medien und welchen Zeitraum in den sequenziellen Daten fokussiert werden soll, um die Frage zu beantworten. Experimentelle Ergebnisse auf der MemexQA-Datenbank zeigen, dass unser Modell starke Baselines übertrifft und bei dieser anspruchsvollen Aufgabe die relevantesten fundierenden Fotos liefert.

Fokussierte visuell-Text-Attention für Memex-Fragebeantwortung | Neueste Forschungsarbeiten | HyperAI