vor 4 Monaten

Zusammenfassung

Die meisten bisherigen Arbeiten im Bereich des visuellen Fragenstellens und -Beantwortens (Visual Question Answering, VQA) konzentrieren sich auf die Steigerung der Genauigkeit vorhergesagter Antworten, während sie Erklärungen vernachlässigen. Wir argumentieren, dass die Erklärung einer Antwort mindestens ebenso wichtig – oder sogar noch wichtiger – ist als die Antwort selbst, da sie den Frage- und Antwortprozess verständlicher und nachvollziehbarer macht. Um dies zu erreichen, schlagen wir eine neue Aufgabenstellung vor: VQA-E (VQA mit Erklärung), bei der die computergestützten Modelle nicht nur eine Antwort, sondern auch eine Erklärung für diese Antwort generieren müssen. Zunächst erstellen wir eine neue Datensammlung und formulieren das VQA-E-Problem innerhalb eines Mehraufgaben-Lernrahmens. Unser VQA-E-Datensatz wird automatisch aus dem VQA v2-Datensatz abgeleitet, indem intelligente Ausnutzung der verfügbaren Bildunterschriften erfolgt. Wir haben eine Nutzerstudie durchgeführt, um die Qualität der von unserer Methode synthetisierten Erklärungen zu validieren. Quantitativ zeigen wir, dass die zusätzliche Supervision durch Erklärungen nicht nur aussagekräftige Textsätze zur Begründung der Antworten erzeugt, sondern auch die Leistungsfähigkeit der Antwortvorhersage verbessert. Unser Modell erreicht auf dem VQA v2-Datensatz deutlich bessere Ergebnisse als die derzeitigen State-of-the-Art-Methoden.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 4 Monaten

Visuelle Fragebeantwortung

Multimodal

Intelligente Fragebeantwortung

Natürliche Sprachverarbeitung

Multimodal

Aufgabe

Li Qing Tao Qingyi Joty Shafiq Cai Jianfei Luo Jiebo

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 4 Monaten

Visuelle Fragebeantwortung

Multimodal

Intelligente Fragebeantwortung

Natürliche Sprachverarbeitung

Multimodal

Aufgabe

Li Qing Tao Qingyi Joty Shafiq Cai Jianfei Luo Jiebo

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

VQA-E: Erklären, Erweitern und Verbessern Ihrer Antworten auf visuelle Fragen

Li Qing Tao Qingyi Joty Shafiq Cai Jianfei Luo Jiebo

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

VQA-E: Erklären, Erweitern und Verbessern Ihrer Antworten auf visuelle Fragen

Li Qing Tao Qingyi Joty Shafiq Cai Jianfei Luo Jiebo

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

VQA-E: Erklären, Erweitern und Verbessern Ihrer Antworten auf visuelle Fragen

Li Qing Tao Qingyi Joty Shafiq Cai Jianfei Luo Jiebo

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters