HyperAIHyperAI

Command Palette

Search for a command to run...

vor 4 Monaten

Fokussierte visuell-Text-Attention für Memex-Fragebeantwortung

{Li-Jia Li Yannis Kalantidis Junwei Liang and Alexander Hauptmann Lu Jiang Liangliang Cao}

Abstract

Neue Erkenntnisse über Sprache und Vision mit neuronalen Netzwerken wurden erfolgreich auf einfache, einbildbasierte visuelle Fragebeantwortung angewendet. Um jedoch praktische Fragebeantwortungsaufgaben in multimedialen Sammlungen wie persönlichen Fotogalerien zu bewältigen, müssen wir ganze Sammlungen mit Folgen von Fotos betrachten. In diesem Artikel wird eine neue multimodale Aufgabe namens MemexQA vorgestellt: Gegeben eine Folge von Fotos eines Nutzers soll das System automatisch Fragen beantworten, die den Nutzer dabei unterstützen, seine Erinnerungen an ein Ereignis, das in diesen Fotos festgehalten ist, wiederherzustellen. Neben einer Textantwort werden zudem einige fundierende Fotos bereitgestellt, um die Antwort zu begründen. Diese fundierenden Fotos sind notwendig, da sie den Nutzern helfen, die Antwort schnell zu überprüfen. Um die Aufgabe zu lösen, 1) präsentieren wir die MemexQA-Datenbank, die erste öffentlich verfügbare multimodale Fragebeantwortungsdatenbank, die echte persönliche Fotogalerien enthält; 2) schlagen wir ein end-to-end trainierbares Netzwerk vor, das einen hierarchischen Prozess nutzt, um dynamisch zu bestimmen, auf welche Medien und welchen Zeitraum in den sequenziellen Daten fokussiert werden soll, um die Frage zu beantworten. Experimentelle Ergebnisse auf der MemexQA-Datenbank zeigen, dass unser Modell starke Baselines übertrifft und bei dieser anspruchsvollen Aufgabe die relevantesten fundierenden Fotos liefert.

Benchmarks

BenchmarkMethodikMetriken
memex-question-answering-on-memexqaFVTA
Accuracy: 0.357

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Fokussierte visuell-Text-Attention für Memex-Fragebeantwortung | Forschungsarbeiten | HyperAI