Empirische Studie zu GPT-3 für Few-Shot Wissensbasierte VQA

Wissensbasierte visuelle Fragebeantwortung (Knowledge-based Visual Question Answering, VQA) beinhaltet die Beantwortung von Fragen, die externe Wissensinhalte erfordern, die nicht im Bild enthalten sind. Bisherige Ansätze holen zunächst Wissen aus externen Quellen ab und führen anschließend eine Schlussfolgerung auf Basis des ausgewählten Wissens, des Eingabebildes und der Frage durch, um die Antwort vorherzusagen. Dieser zweistufige Ansatz kann jedoch zu Missmatches führen, die die Leistungsfähigkeit der VQA begrenzen können. Beispielsweise kann das abgerufene Wissen geräuschbehaftet oder irrelevant für die Frage sein, und die während der Schlussfolgerung neu eingebetteten Wissensmerkmale können sich von ihren ursprünglichen Bedeutungen im Wissensbasis (Knowledge Base, KB) unterscheiden. Um diese Herausforderung zu bewältigen, schlagen wir PICa vor – eine einfache, aber wirksame Methode, die GPT-3 mittels Bildbeschreibungen (Image Captions) anspricht, um wissensbasierte VQA zu ermöglichen. Inspiriert durch die Stärke von GPT-3 bei der Wissensabfrage und der Fragebeantwortung, verwenden wir im Gegensatz zu früheren Arbeiten keine strukturierten KBs, sondern betrachten GPT-3 als implizite, unstrukturierte Wissensbasis, die relevante Informationen gemeinsam erheben und verarbeiten kann. Konkret wandeln wir zunächst das Bild in Beschreibungen (bzw. Tags) um, die von GPT-3 verstanden werden können, und passen GPT-3 dann in wenigen Schritten (few-shot) an die VQA-Aufgabe an, indem wir lediglich einige in-context-VQA-Beispiele bereitstellen. Die Leistung wird weiter verbessert, indem wir sorgfältig untersuchen: (i) welche Textformate die Bildinhalte am besten beschreiben, und (ii) wie in-context-Beispiele besser ausgewählt und genutzt werden können. PICa ermöglicht die erste Anwendung von GPT-3 für multimodale Aufgaben. Mit lediglich 16 Beispielen übertrifft PICa den überwachten State-of-the-Art auf dem OK-VQA-Datensatz um absolute +8,6 Punkte. Wir benchmarken PICa auch auf VQAv2, wo das Modell zudem eine beachtenswerte Few-shot-Leistung zeigt.