HyperAIHyperAI
vor 17 Tagen

Prophet: Prompting Large Language Models mit komplementären Antwortheuristiken für wissensbasierte visuelle Fragebeantwortung

Yu, Zhou, Ouyang, Xuecheng, Shao, Zhenwei, Wang, Meng, Yu, Jun
Prophet: Prompting Large Language Models mit komplementären Antwortheuristiken für wissensbasierte visuelle Fragebeantwortung
Abstract

Wissensbasiertes visuelles Fragenbeantworten (Knowledge-based Visual Question Answering, VQA) erfordert externes Wissen jenseits des Bildes, um die gestellte Frage zu beantworten. Frühere Studien ziehen das erforderliche Wissen aus expliziten Wissensbasen (Knowledge Bases, KBs), was oft irrelevante Informationen in die Frage einbezieht und somit die Leistung der Modelle einschränkt. In jüngeren Arbeiten wird ein leistungsstarker Großsprachmodell (Large Language Model, LLM) als implizite Wissensmaschine eingesetzt, um das notwendige Wissen für die Antwortgewinnung zu erlangen. Trotz der vielversprechenden Ergebnisse dieser Ansätze argumentieren wir, dass sie das Potenzial des sogenannten blind („blind“) LLM nicht vollständig ausgeschöpft haben, da die bereitgestellten textuellen Eingaben unzureichend sind, um die erforderlichen visuellen Informationen zur Beantwortung der Frage hinreichend zu beschreiben. In diesem Paper präsentieren wir Prophet – einen konzeptionell einfachen, flexiblen und allgemeinen Rahmen, der ein LLM mit Antwortheuristiken für wissensbasierte VQA anspricht. Konkret trainieren wir zunächst ein herkömmliches VQA-Modell auf einem spezifischen wissensbasierten VQA-Datensatz ohne Zugriff auf externe Wissensquellen. Anschließend extrahieren wir zwei Arten komplementärer Antwortheuristiken aus dem VQA-Modell: Antwortkandidaten und antwortorientierte Beispiele. Beide Arten von Antwortheuristiken werden gemeinsam in eine strukturierte Prompt-Formulierung kodiert, um dem LLM die Verständnis von Bild und Frage zu erleichtern und somit genauere Antworten zu generieren. Durch die Integration des modernsten LLMs, GPT-3, übertrifft Prophet bestehende state-of-the-art-Methoden signifikant auf vier anspruchsvollen wissensbasierten VQA-Datensätzen. Prophet ist allgemein einsetzbar und kann mit verschiedenen Kombinationen von VQA-Modellen (sowohl diskriminativen als auch generativen) und verschiedenen LLMs (sowohl kommerziellen als auch quelloffenen) realisiert werden. Darüber hinaus kann Prophet in unterschiedlichen Phasen mit modernen großen multimodalen Modellen integriert werden, was als Prophet++ bezeichnet wird und die Fähigkeiten für wissensbasierte VQA-Aufgaben weiter verbessert.