vor 2 Monaten

InstructBLIP: Auf dem Weg zu allgemeinen Visio-Sprach-Modellen durch Anweisungstuning

Wenliang Dai; Junnan Li; Dongxu Li; Anthony Meng Huat Tiong; Junqi Zhao; Weisheng Wang; Boyang Li; Pascale Fung; Steven Hoi

Details der Forschungsarbeit anzeigen

InstructBLIP: Auf dem Weg zu allgemeinen Visio-Sprach-Modellen durch Anweisungstuning

Abstract

Großformatige Vortraining und Anweisungstuning haben erfolgreich allgemeine Sprachmodelle mit breiter Kompetenz erstellt. Dennoch ist die Erstellung allgemeiner Sehen-Sprach-Modelle aufgrund der reichhaltigen Eingabeverteilungen und der Aufgabenvielfalt, die durch das zusätzliche visuelle Eingangssignal entstehen, herausfordernd. Obwohl das Vortraining von Sehen-Sprach-Modellen weitgehend untersucht wurde, bleibt das Anweisungstuning in diesem Bereich unterexploriert. In dieser Arbeit führen wir eine systematische und umfassende Studie zum Anweisungstuning von Sehen-Sprach-Modellen durch, basierend auf den vortrainierten BLIP-2-Modellen. Wir sammeln 26 öffentlich verfügbare Datensätze, die eine große Vielfalt an Aufgaben und Fähigkeiten abdecken, und transformieren sie in ein Anweisungstuning-Format. Zudem stellen wir einen anweisungsorientierten Query Transformer vor, der informativen Features extrahiert, die auf die gegebene Anweisung zugeschnitten sind. Trainiert auf 13 eingehaltenen Datensätzen erreicht InstructBLIP über alle 13 ausgelassenen Datensätze hinweg den aktuellen Stand der Technik bei Nullschuss-Aufgaben (Zero-Shot), wobei es BLIP-2 und größere Flamingo-Modelle erheblich übertreffen kann. Unsere Modelle erzielen auch den aktuellen Stand der Technik, wenn sie für einzelne nachgeschaltete Aufgaben feintuneiert werden (z.B. 90,7 % Genauigkeit bei ScienceQA-Fragen mit bildlichen Kontexten). Darüber hinaus demonstrieren wir qualitativ die Vorteile von InstructBLIP gegenüber zeitgleich entwickelten multimodalen Modellen. Alle InstructBLIP-Modelle sind Open Source unter https://github.com/salesforce/LAVIS/tree/main/projects/instructblip.请注意，这里“Nullschuss-Aufgaben”是“零样本任务”的德语翻译，而“feintuneiert”则是“微调”的德语翻译。为了保持专业性和准确性，我选择使用这些术语。如果有任何特定术语需要进一步解释或调整，请告知。