vor 6 Monaten

Zusammenfassung

Wissensbasierte visuelle Fragebeantwortung (Visual Question Answering, VQA) umfasst Fragen, die über das Bild hinausgehendes Weltwissen erfordern, um die korrekte Antwort zu liefern. Große Sprachmodelle (Language Models, LMs), wie beispielsweise GPT-3, sind für diese Aufgabe besonders hilfreich, da sie über starke Fähigkeiten zur Wissensabfrage und Schlussfolgerung verfügen. Um LMs das Verständnis von Bildern zu ermöglichen, verwenden vorangegangene Ansätze ein Captioning-Modell, um Bilder in Text umzuwandeln. Bei der Zusammenfassung eines Bildes in einem einzigen Caption-Satz sind jedoch oft die zu beschreibenden visuellen Entitäten unzureichend spezifiziert. Generische Bildcaptionings überspringen häufig visuelle Details, die für das LM entscheidend sind, um visuelle Fragen korrekt beantworten zu können. Um diese Herausforderung anzugehen, schlagen wir PromptCap (Prompt-gesteuertes Bild-Captioning) vor – ein Captioning-Modell, das als effektiverer Vermittler zwischen Bildern und black-box Sprachmodellen dienen soll. Im Gegensatz zu generischen Captionings nimmt PromptCap eine natürlichsprachliche Prompt entgegen, um die in der generierten Caption zu beschreibenden visuellen Entitäten zu steuern. Die Prompt enthält eine Frage, die die Caption unterstützen soll. Um zusätzliche Annotationen zu vermeiden, wird PromptCap anhand von Beispielen trainiert, die mit GPT-3 und bestehenden Datensätzen synthetisiert wurden. Wir demonstrieren die Wirksamkeit von PromptCap in einer bestehenden Pipeline, in der GPT-3 mit Bildcaptionings zur Durchführung der VQA angeregt wird. PromptCap übertrifft generische Captionings deutlich und erreicht state-of-the-art Genauigkeit bei wissensbasierten VQA-Aufgaben (60,4 % auf OK-VQA und 59,6 % auf A-OKVQA). Zero-shot-Ergebnisse auf WebQA zeigen, dass PromptCap gut auf unbekannte Domänen generalisiert.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 6 Monaten

Visuelle Fragebeantwortung

Bildbeschreibung

Retrieval-Augmented Generation

Ansatz/Rahmenwerk

Multimodal

Aufgabe

Yushi Hu Hang Hua Zhengyuan Yang Weijia Shi Noah A Smith Jiebo Luo

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 6 Monaten

Visuelle Fragebeantwortung

Bildbeschreibung

Retrieval-Augmented Generation

Ansatz/Rahmenwerk

Multimodal

Aufgabe

Yushi Hu Hang Hua Zhengyuan Yang Weijia Shi Noah A Smith Jiebo Luo

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

PromptCap: Prompt-gesteuerte, auf Aufgaben ausgerichtete Bildbeschreibung

Yushi Hu Hang Hua Zhengyuan Yang Weijia Shi Noah A Smith Jiebo Luo

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

PromptCap: Prompt-gesteuerte, auf Aufgaben ausgerichtete Bildbeschreibung

Yushi Hu Hang Hua Zhengyuan Yang Weijia Shi Noah A Smith Jiebo Luo

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

PromptCap: Prompt-gesteuerte, auf Aufgaben ausgerichtete Bildbeschreibung

Yushi Hu Hang Hua Zhengyuan Yang Weijia Shi Noah A Smith Jiebo Luo

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters