HyperAIHyperAI

Command Palette

Search for a command to run...

PromptCap: Prompt-gesteuerte, auf Aufgaben ausgerichtete Bildbeschreibung

Yushi Hu Hang Hua Zhengyuan Yang Weijia Shi Noah A Smith Jiebo Luo

Zusammenfassung

Wissensbasierte visuelle Fragebeantwortung (Visual Question Answering, VQA) umfasst Fragen, die über das Bild hinausgehendes Weltwissen erfordern, um die korrekte Antwort zu liefern. Große Sprachmodelle (Language Models, LMs), wie beispielsweise GPT-3, sind für diese Aufgabe besonders hilfreich, da sie über starke Fähigkeiten zur Wissensabfrage und Schlussfolgerung verfügen. Um LMs das Verständnis von Bildern zu ermöglichen, verwenden vorangegangene Ansätze ein Captioning-Modell, um Bilder in Text umzuwandeln. Bei der Zusammenfassung eines Bildes in einem einzigen Caption-Satz sind jedoch oft die zu beschreibenden visuellen Entitäten unzureichend spezifiziert. Generische Bildcaptionings überspringen häufig visuelle Details, die für das LM entscheidend sind, um visuelle Fragen korrekt beantworten zu können. Um diese Herausforderung anzugehen, schlagen wir PromptCap (Prompt-gesteuertes Bild-Captioning) vor – ein Captioning-Modell, das als effektiverer Vermittler zwischen Bildern und black-box Sprachmodellen dienen soll. Im Gegensatz zu generischen Captionings nimmt PromptCap eine natürlichsprachliche Prompt entgegen, um die in der generierten Caption zu beschreibenden visuellen Entitäten zu steuern. Die Prompt enthält eine Frage, die die Caption unterstützen soll. Um zusätzliche Annotationen zu vermeiden, wird PromptCap anhand von Beispielen trainiert, die mit GPT-3 und bestehenden Datensätzen synthetisiert wurden. Wir demonstrieren die Wirksamkeit von PromptCap in einer bestehenden Pipeline, in der GPT-3 mit Bildcaptionings zur Durchführung der VQA angeregt wird. PromptCap übertrifft generische Captionings deutlich und erreicht state-of-the-art Genauigkeit bei wissensbasierten VQA-Aufgaben (60,4 % auf OK-VQA und 59,6 % auf A-OKVQA). Zero-shot-Ergebnisse auf WebQA zeigen, dass PromptCap gut auf unbekannte Domänen generalisiert.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp