Plug-and-Play VQA: Zero-shot VQA durch die Kombination großer vortrainierter Modelle mit null Training

Visuelles Fragenbeantworten (VQA) ist ein Merkmal der visuellen und sprachlichen Inferenz und stellt eine herausfordernde Aufgabe im Kontext des Zero-Shot-Lernens dar. Wir schlagen Plug-and-Play VQA (PNP-VQA) vor, ein modulares Framework für Zero-Shot-VQA. Im Gegensatz zu den meisten existierenden Ansätzen, die erhebliche Anpassungen vortrainierter Sprachmodelle (PLMs) für die visuelle Modalität erfordern, benötigt PNP-VQA keine zusätzliche Training der PLMs. Stattdessen schlagen wir vor, natürliche Sprache und Netzwerkinterpretation als Zwischendarstellung zu verwenden, die vortrainierte Modelle miteinander verbindet. Zunächst generieren wir fragegeleitete, informativen Bildunterschriften und übergeben diese dem PLM als Kontext für die Fragenbeantwortung. PNP-VQA übertreffen die End-to-End trainierten Baseline-Modelle und erreichen Stand-of-the-Art-Ergebnisse bei Zero-Shot VQAv2 und GQA. Mit 11 Milliarden Parametern übertrifft es das 80-Milliarden-Parameter-Modell Flamingo um 8,5 % auf VQAv2. Mit 738 Millionen PLM-Parametern erreicht PNP-VQA eine Verbesserung von 9,1 % auf GQA gegenüber FewVLM mit 740 Millionen PLM-Parametern. Der Quellcode wird unter https://github.com/salesforce/LAVIS/tree/main/projects/pnp-vqa veröffentlicht.