LLaMA-Adapter: Effizientes Feinjustieren von Sprachmodellen mit Null-Init-Aufmerksamkeit

Wir stellen LLaMA-Adapter vor, eine leichte Anpassungsmethode, um LLaMA effizient in ein auf Befehle reagierendes Modell zu feinjustieren. Mit 52.000 selbstgenerierten Demonstrationsbeispielen führt LLaMA-Adapter nur 1,2 Millionen lernfähige Parameter in das gefrorene LLaMA 7B-Modell ein und benötigt weniger als eine Stunde für die Feinjustierung auf 8 A100-GPUs. Insbesondere verwenden wir eine Reihe von lernfähigen Anpassungsprompts, die den Worttoken in höheren Transformer-Schichten vorgeschaltet werden. Anschließend wird ein mit Null initialisierte Aufmerksamkeitsmechanismus mit Null-Gating vorgeschlagen, der die neuen Befehlsanweisungen adaptiv in LLaMA einbringt, während er dessen prätrainiertes Wissen effektiv bewahrt. Durch unser effizientes Training kann LLaMA-Adapter hochwertige Antworten generieren, die sich mit denen von Alpaca vergleichen lassen, das vollständig mit 7B lernfähigen Parametern feinjustiert wurde. Neben Sprachbefehlen kann unser Ansatz einfach auf multimodale Anweisungen erweitert werden, um ein bildbedingtes LLaMA-Modell zu trainieren, das überlegene Leistung bei den Benchmarks ScienceQA und COCO Caption erzielt. Darüber hinaus evaluieren wir auch den mit Null initialisierten Aufmerksamkeitsmechanismus zur Feinjustierung anderer prätrainierter Modelle (ViT, RoBERTa) bei traditionellen Vision- und Sprachaufgaben, wobei wir die überlegene Generalisierungsfähigkeit unseres Ansatzes demonstrieren. Der Quellcode ist unter https://github.com/OpenGVLab/LLaMA-Adapter veröffentlicht.