HyperAIHyperAI

Command Palette

Search for a command to run...

LLaMA-Adapter : Optimisation efficace du réglage des modèles de langage avec une attention initialisée à zéro

Renrui Zhang∗1,2 Jiaming Han∗1,2 Chris Liu∗1 Aojun Zhou2 Pan Lu3 Yu Qiao†1 Hongsheng Li‡2,4 Peng Gao†∗1

Résumé

Nous présentons LLaMA-Adapter, une méthode d'adaptation légère permettant d'affiner efficacement LLaMA en un modèle capable de suivre des instructions. En utilisant 52 000 démonstrations auto-instructives, LLaMA-Adapter n'introduit que 1,2 million de paramètres apprenables sur le modèle LLaMA 7B gelé, et le processus d'affinage prend moins d'une heure sur 8 GPU A100. Plus précisément, nous adoptons un ensemble de prompts d'adaptation apprenables, que nous ajoutons aux jetons de mots dans les couches supérieures du transformateur. Ensuite, nous proposons un mécanisme d'attention initialisé à zéro avec une porte à zéro, qui injecte de manière adaptative les nouvelles indications instructionnelles dans LLaMA tout en préservant efficacement ses connaissances pré-entraînées. Grâce à notre formation efficace, LLaMA-Adapter peut générer des réponses de haute qualité, comparables à celles d'Alpaca avec un affinage complet des 7 milliards de paramètres. Outre les commandes linguistiques, notre approche peut être facilement étendue aux instructions multimodales pour l'apprentissage d'un modèle LLaMA conditionné par des images, ce qui lui permet d'obtenir des performances supérieures sur les benchmarks ScienceQA et COCO Caption. De plus, nous évaluons également le mécanisme d'attention initialisé à zéro pour l'affinage d'autres modèles pré-entraînés (ViT, RoBERTa) sur des tâches traditionnelles de vision et de langage, démontrant la capacité généralisatrice supérieure de notre approche. Le code est disponible sur https://github.com/OpenGVLab/LLaMA-Adapter.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
LLaMA-Adapter : Optimisation efficace du réglage des modèles de langage avec une attention initialisée à zéro | Articles | HyperAI