vor 8 Monaten

Zusammenfassung

Neue Erkenntnisse zu Sprache und Vision mit neuronalen Netzen wurden erfolgreich auf einfache visuelle Fragebeantwortungsaufgaben für einzelne Bilder angewendet. Um jedoch realistische Fragebeantwortungsprobleme in multimedialen Sammlungen wie persönlichen Fotos zu lösen, müssen wir gesamte Sammlungen mit Foto- oder Videosequenzen betrachten. Bei der Beantwortung von Fragen aus einer großen Sammlung stellt sich das natürliche Problem, die relevanten Ausschnitte zu identifizieren, die die Antwort stützen. In dieser Arbeit beschreiben wir ein neuartiges neuronales Netzwerk namens Focal Visual-Text Attention Netzwerk (FVTA), das kollektives Schließen in der visuellen Fragebeantwortung ermöglicht, bei dem sowohl visuelle als auch textuelle Sequenzinformationen wie Bilder und Textmetadaten vorliegen. Das FVTA führt einen end-to-end Ansatz ein, der durch einen hierarchischen Prozess dynamisch bestimmt, auf welche Medien und welchen Zeitpunkt im sequentiellen Datenmaterial der Fokus gelegt werden soll, um die Frage zu beantworten. Das FVTA kann nicht nur die Fragen gut beantworten, sondern bietet auch die Begründungen, auf denen die Systemergebnisse basieren, um die Antworten zu erhalten. Das FVTA erzielt den aktuellen Stand der Technik (state-of-the-art) auf dem MemexQA-Datensatz und wettbewerbsfähige Ergebnisse auf dem MovieQA-Datensatz.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 8 Monaten

Visuelle Fragebeantwortung

Junwei Liang Lu Jiang Liangliang Cao Li-Jia Li Alexander Hauptmann

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 8 Monaten

Visuelle Fragebeantwortung

Junwei Liang Lu Jiang Liangliang Cao Li-Jia Li Alexander Hauptmann

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Fokale visuelle-tekstbasierte Aufmerksamkeit für visuelle Fragebeantwortung | Paper | HyperAI

Command Palette

Fokale visuelle-tekstbasierte Aufmerksamkeit für visuelle Fragebeantwortung

Junwei Liang Lu Jiang Liangliang Cao Li-Jia Li Alexander Hauptmann

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Fokale visuelle-tekstbasierte Aufmerksamkeit für visuelle Fragebeantwortung

Junwei Liang Lu Jiang Liangliang Cao Li-Jia Li Alexander Hauptmann

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Fokale visuelle-tekstbasierte Aufmerksamkeit für visuelle Fragebeantwortung

Junwei Liang Lu Jiang Liangliang Cao Li-Jia Li Alexander Hauptmann

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters