HyperAIHyperAI
vor 16 Tagen

PromptCap: Prompt-gesteuerte, auf Aufgaben ausgerichtete Bildbeschreibung

Yushi Hu, Hang Hua, Zhengyuan Yang, Weijia Shi, Noah A Smith, Jiebo Luo
PromptCap: Prompt-gesteuerte, auf Aufgaben ausgerichtete Bildbeschreibung
Abstract

Wissensbasierte visuelle Fragebeantwortung (Visual Question Answering, VQA) umfasst Fragen, die über das Bild hinausgehendes Weltwissen erfordern, um die korrekte Antwort zu liefern. Große Sprachmodelle (Language Models, LMs), wie beispielsweise GPT-3, sind für diese Aufgabe besonders hilfreich, da sie über starke Fähigkeiten zur Wissensabfrage und Schlussfolgerung verfügen. Um LMs das Verständnis von Bildern zu ermöglichen, verwenden vorangegangene Ansätze ein Captioning-Modell, um Bilder in Text umzuwandeln. Bei der Zusammenfassung eines Bildes in einem einzigen Caption-Satz sind jedoch oft die zu beschreibenden visuellen Entitäten unzureichend spezifiziert. Generische Bildcaptionings überspringen häufig visuelle Details, die für das LM entscheidend sind, um visuelle Fragen korrekt beantworten zu können. Um diese Herausforderung anzugehen, schlagen wir PromptCap (Prompt-gesteuertes Bild-Captioning) vor – ein Captioning-Modell, das als effektiverer Vermittler zwischen Bildern und black-box Sprachmodellen dienen soll. Im Gegensatz zu generischen Captionings nimmt PromptCap eine natürlichsprachliche Prompt entgegen, um die in der generierten Caption zu beschreibenden visuellen Entitäten zu steuern. Die Prompt enthält eine Frage, die die Caption unterstützen soll. Um zusätzliche Annotationen zu vermeiden, wird PromptCap anhand von Beispielen trainiert, die mit GPT-3 und bestehenden Datensätzen synthetisiert wurden. Wir demonstrieren die Wirksamkeit von PromptCap in einer bestehenden Pipeline, in der GPT-3 mit Bildcaptionings zur Durchführung der VQA angeregt wird. PromptCap übertrifft generische Captionings deutlich und erreicht state-of-the-art Genauigkeit bei wissensbasierten VQA-Aufgaben (60,4 % auf OK-VQA und 59,6 % auf A-OKVQA). Zero-shot-Ergebnisse auf WebQA zeigen, dass PromptCap gut auf unbekannte Domänen generalisiert.