vor 2 Monaten

MiniGPT-v2: Große Sprachmodelle als einheitliches Interface für visuelle und sprachliche Multitask-Lernverfahren

Jun Chen; Deyao Zhu; Xiaoqian Shen; Xiang Li; Zechun Liu; Pengchuan Zhang; Raghuraman Krishnamoorthi; Vikas Chandra; Yunyang Xiong; Mohamed Elhoseiny

Details der Forschungsarbeit anzeigen

MiniGPT-v2: Große Sprachmodelle als einheitliches Interface für visuelle und sprachliche Multitask-Lernverfahren

Abstract

Große Sprachmodelle haben ihre bemerkenswerten Fähigkeiten als allgemeine Schnittstelle für verschiedene sprachbezogene Anwendungen gezeigt. Angeregt durch dies, streben wir an, eine einheitliche Schnittstelle zu entwickeln, die viele visuelle und sprachliche Aufgaben, darunter Bildbeschreibung, visuelle Fragebeantwortung und visuelles Verorten, effektiv mit einfachen multimodalen Anweisungen ausführt. Die Herausforderung besteht darin, ein einzelnes Modell so zu gestalten, dass es vielfältige visuelle und sprachliche Aufgaben effizient lösen kann. Um dieses Ziel zu erreichen, stellen wir MiniGPT-v2 vor, ein Modell, das als einheitliche Schnittstelle zur besseren Bearbeitung verschiedener visueller und sprachlicher Aufgaben dienen kann. Wir schlagen vor, bei der Modellausbildung eindeutige Identifikatoren für verschiedene Aufgaben zu verwenden. Diese Identifikatoren ermöglichen es unserem Modell, jede Aufgabeanweisung mühelos besser zu unterscheiden und verbessern auch die Lern-effizienz des Modells für jede Aufgabe. Nach der dreistufigen Ausbildung zeigen die experimentellen Ergebnisse, dass MiniGPT-v2 auf vielen Benchmarks für visuelle Fragebeantwortung und visuelles Verorten gegenüber anderen allgemeinen visuellen und sprachlichen Modellen starke Leistungen erzielt. Unser Modell und unsere Codes sind unter https://minigpt-v2.github.io/ verfügbar.