HyperAIHyperAI
il y a 2 mois

LLaMA-Adapter V2 : Modèle d'instruction visuelle à paramètres efficaces

Peng Gao; Jiaming Han; Renrui Zhang; Ziyi Lin; Shijie Geng; Aojun Zhou; Wei Zhang; Pan Lu; Conghui He; Xiangyu Yue; Hongsheng Li; Yu Qiao
LLaMA-Adapter V2 : Modèle d'instruction visuelle à paramètres efficaces
Résumé

Comment transformer efficacement les grands modèles de langage (LLMs) en modèles capables de suivre des instructions est une direction de recherche récente et populaire, tandis que l'entraînement des LLMs pour le raisonnement multi-modale reste moins exploré. Bien que l'adaptateur LLaMA récent démontre le potentiel de traiter des entrées visuelles avec des LLMs, il ne peut toujours pas bien généraliser aux instructions visuelles ouvertes et reste en retard par rapport à GPT-4. Dans cet article, nous présentons LLaMA-Adapter V2, un modèle d'instruction visuelle à efficacité paramétrique. Plus précisément, nous commençons par augmenter LLaMA-Adapter en débloquant plus de paramètres apprenables (par exemple, la norme, le biais et l'échelle), ce qui répartit la capacité de suivre des instructions sur l'ensemble du modèle LLaMA, en plus des adaptateurs. Ensuite, nous proposons une stratégie de fusion précoce pour injecter uniquement les jetons visuels dans les premières couches du modèle de langage, contribuant ainsi à une meilleure intégration des connaissances visuelles. Troisièmement, un paradigme d'entraînement conjoint d'appariements image-texte et de données d'instructions est introduit en optimisant des groupes distincts de paramètres apprenables. Cette stratégie atténue efficacement les interférences entre les deux tâches d'appariement image-texte et de suivi d'instructions, et permet un raisonnement multi-modale robuste avec un ensemble de données image-texte et d'instructions à petite échelle. Pendant l'inférence, nous intégrons des modèles experts supplémentaires (par exemple, systèmes de légendage/OCR) dans LLaMA-Adapter pour améliorer davantage sa capacité à comprendre les images sans engendrer de coûts d'entraînement supplémentaires. Par rapport à l'adaptateur LLaMA original, notre LLaMA-Adapter V2 peut exécuter des instructions multi-modales ouvertes en ajoutant seulement 14 millions de paramètres supplémentaires au modèle LLaMA. Le nouveau cadre conçu présente également une meilleure capacité à suivre des instructions purement linguistiques et excelle même dans les interactions conversationnelles. Notre code et nos modèles sont disponibles sur https://github.com/ZrrSkywalker/LLaMA-Adapter.

LLaMA-Adapter V2 : Modèle d'instruction visuelle à paramètres efficaces | Articles de recherche récents | HyperAI