vor 2 Monaten

LLaMA-Adapter V2: Parameter-effizientes visuelles Instruktionsmodell

Peng Gao; Jiaming Han; Renrui Zhang; Ziyi Lin; Shijie Geng; Aojun Zhou; Wei Zhang; Pan Lu; Conghui He; Xiangyu Yue; Hongsheng Li; Yu Qiao

Details der Forschungsarbeit anzeigen

LLaMA-Adapter V2: Parameter-effizientes visuelles Instruktionsmodell

Abstract

Wie man große Sprachmodelle (LLMs) effizient zu Anweisungsfollowern umwandelt, ist aktuell eine populäre Forschungsrichtung, während das Training von LLMs für multimodales Schließen noch weniger erforscht wurde. Obwohl der jüngste LLaMA-Adapter das Potenzial zeigt, visuelle Eingaben mit LLMs zu verarbeiten, kann er sich bei offenen visuellen Anweisungen nicht gut verallgemeinern und fällt hinter GPT-4 zurück. In dieser Arbeit stellen wir den LLaMA-Adapter V2 vor, ein parameter-effizientes visuelles Anweisungsmodell. Insbesondere erweitern wir den LLaMA-Adapter initially durch die Freischaltung zusätzlicher lernfähiger Parameter (z.B. Norm, Bias und Skalierung), die die Fähigkeit zur Anweisungsbefolgung über das gesamte LLaMA-Modell hinaus in die Adapter verteilen. Zweitens schlagen wir eine Early-Fusion-Strategie vor, um visuelle Tokens nur in die frühen Schichten des LLMs zu integrieren, was zur besseren Einbindung von visuellem Wissen beiträgt. Drittens wird ein gemeinsames Trainingsparadigma für Bild-Text-Paare und Anweisungsbefolgungsdaten eingeführt, indem disjunkte Gruppen lernfähiger Parameter optimiert werden. Diese Strategie mildert die Interferenz zwischen den beiden Aufgaben der Bild-Text-Ausrichtung und der Anweisungsbefolgung effektiv und erreicht starkes multimodales Schließen mit einem kleineren Bild-Text-Datensatz und einem kleinen Anweisungsdatensatz. Während der Inferenz integrieren wir zusätzliche Expertenmodelle (z.B. Captioning-/OCR-Systeme) in den LLaMA-Adapter, um dessen Fähigkeiten zur Bildverarbeitung weiter zu verbessern, ohne zusätzliche Trainingskosten zu verursachen. Im Vergleich zum ursprünglichen LLaMA-Adapter kann unser LLaMA-Adapter V2 offene multimodale Anweisungen durch bloß 14 Millionen zusätzliche Parameter über dem LLaMA ausführen. Das neu entwickelte Framework zeigt auch stärkere Fähigkeiten zur rein sprachlichen Anweisungsbefolgung und übertrifft sogar in Chatinteraktionen. Unser Code und unsere Modelle sind unter https://github.com/ZrrSkywalker/LLaMA-Adapter verfügbar.