LLaMA-Adapter : Optimisation efficace du réglage des modèles de langage avec une attention initialisée à zéro

Nous présentons LLaMA-Adapter, une méthode d'adaptation légère permettant d'affiner efficacement LLaMA en un modèle capable de suivre des instructions. En utilisant 52 000 démonstrations auto-instructives, LLaMA-Adapter n'introduit que 1,2 million de paramètres apprenables sur le modèle LLaMA 7B gelé, et le processus d'affinage prend moins d'une heure sur 8 GPU A100. Plus précisément, nous adoptons un ensemble de prompts d'adaptation apprenables, que nous ajoutons aux jetons de mots dans les couches supérieures du transformateur. Ensuite, nous proposons un mécanisme d'attention initialisé à zéro avec une porte à zéro, qui injecte de manière adaptative les nouvelles indications instructionnelles dans LLaMA tout en préservant efficacement ses connaissances pré-entraînées. Grâce à notre formation efficace, LLaMA-Adapter peut générer des réponses de haute qualité, comparables à celles d'Alpaca avec un affinage complet des 7 milliards de paramètres. Outre les commandes linguistiques, notre approche peut être facilement étendue aux instructions multimodales pour l'apprentissage d'un modèle LLaMA conditionné par des images, ce qui lui permet d'obtenir des performances supérieures sur les benchmarks ScienceQA et COCO Caption. De plus, nous évaluons également le mécanisme d'attention initialisé à zéro pour l'affinage d'autres modèles pré-entraînés (ViT, RoBERTa) sur des tâches traditionnelles de vision et de langage, démontrant la capacité généralisatrice supérieure de notre approche. Le code est disponible sur https://github.com/OpenGVLab/LLaMA-Adapter.