2달 전

LLaMA-어댑터: 제로 초기화 어텐션을 사용한 언어 모델의 효율적인 미세 조정

Renrui Zhang; Jiaming Han; Chris Liu; Peng Gao; Aojun Zhou; Xiangfei Hu; Shilin Yan; Pan Lu; Hongsheng Li; Yu Qiao
LLaMA-어댑터: 제로 초기화 어텐션을 사용한 언어 모델의 효율적인 미세 조정
초록

우리는 LLaMA-Adapter를 소개합니다. 이는 LLaMA를 효율적으로 명령어 추종 모델로 미세 조정(fine-tune)하기 위한 경량화된 적응 방법입니다. 52,000개의 자기 지시(self-instruct) 데모를 사용하여, LLaMA-Adapter는 동결된 LLaMA 7B 모델에 1.2M 개의 학습 가능한 매개변수만 추가하며, 8개의 A100 GPU에서 미세 조정에 약 1시간이 소요됩니다. 구체적으로, 우리는 학습 가능한 적응 프롬프트(prompt) 세트를 채택하여 이를 고층 트랜스포머(transformer) 레이어의 단어 토큰(word token) 앞에 붙입니다. 그런 다음, 제로 초기화된 주의 메커니즘(attention mechanism)과 제로 게이팅(zero gating)을 제안하여, 이 메커니즘이 새로운 명령어 신호(instructional cues)를 LLaMA에 유연하게 주입하면서도 사전 학습(pre-trained)된 지식을 효과적으로 보존할 수 있습니다. 우리의 효율적인 학습 방법 덕분에, LLaMA-Adapter는 완전히 미세 조정된 7B 매개변수를 가진 Alpaca와 비교할 만한 고품질 응답을 생성할 수 있습니다. 언어 명령어뿐만 아니라, 우리의 접근 방식은 이미지 조건(image-conditioned) LLaMA 모델을 학습하기 위한 다중 모달(multi-modal) 명령어에도 쉽게 확장될 수 있으며, 이는 ScienceQA 및 COCO Caption 벤치마크에서 우수한 추론 성능을 달성하였습니다. 또한, 우리는 제로 초기화된 주의 메커니즘을 전통적인 시각 및 언어 작업에서 다른 사전 학습 모델(ViT, RoBERTa)의 미세 조정에 평가하였으며, 이는 우리 접근 방식의 우수한 일반화 능력을 입증하였습니다. 코드는 https://github.com/OpenGVLab/LLaMA-Adapter에서 제공됩니다.

LLaMA-어댑터: 제로 초기화 어텐션을 사용한 언어 모델의 효율적인 미세 조정 | 최신 연구 논문 | HyperAI초신경