11일 전

QLoRA: 양자화된 LLM의 효율적인 피팅

Tim Dettmers, Artidoro Pagnoni, Ari Holtzman, Luke Zettlemoyer
QLoRA: 양자화된 LLM의 효율적인 피팅
초록

우리는 65B 파라미터 모델을 단일 48GB GPU에서 훈련할 수 있도록 메모리 사용량을 충분히 줄이는 효율적인 미세조정 방법인 QLoRA를 제안한다. 이 방법은 16비트 미세조정 작업의 성능을 완전히 유지하면서도, 매우 낮은 메모리 요구량을 달성한다. QLoRA는 고정된 4비트 양자화된 사전 학습된 언어 모델을 통해 역전파를 수행하며, 이 과정에서 저랭크 어댑터(Low Rank Adapters, LoRA)에 기울기를 전달한다. 우리 연구에서 가장 우수한 모델 패밀리인 Guanaco는 Vicuna 벤치마크에서 이전에 공개된 모든 모델보다 뛰어난 성능을 보이며, ChatGPT의 성능 수준의 99.3%에 도달했다. 이 성능을 달성하기 위해 단지 단일 GPU에서 24시간의 미세조정만 필요하다. QLoRA는 성능을 희생하지 않고 메모리 사용량을 절약하기 위해 다음과 같은 혁신적인 기법들을 도입하였다: (a) 정규 분포된 가중치에 대해 정보 이론적으로 최적화된 새로운 데이터 형식인 4비트 노멀플로트(NormalFloat, NF4), (b) 양자화 상수를 다시 양자화함으로써 평균 메모리 사용량을 줄이는 이중 양자화(double quantization), (c) 메모리 급증을 효과적으로 관리하기 위한 페이지 기반 최적화기(paged optimizers). 우리는 QLoRA를 활용해 1,000개 이상의 모델을 미세조정하였으며, 8개의 지시 데이터셋, 다양한 모델 유형(LLaMA, T5), 그리고 기존의 일반적인 미세조정으로는 실행이 불가능한 규모(예: 33B 및 65B 파라미터 모델)에 걸쳐 지시 따르기 및 챗봇 성능에 대한 철저한 분석을 수행하였다. 실험 결과, 소규모이지만 고품질의 데이터셋에서 QLoRA를 사용한 미세조정이, 이전 최고 성능(SoTA) 모델보다 더 작은 모델을 사용하더라도 최신 기술 수준의 성능을 달성함을 보여주었다. 인간 평가와 GPT-4 평가를 기반으로 한 챗봇 성능 분석을 통해 GPT-4 평가가 인간 평가에 비해 저렴하고 타당한 대안임을 확인하였다. 또한, 현재의 챗봇 벤치마크가 챗봇의 실제 성능 수준을 정확히 평가하는 데 신뢰할 수 없다는 점을 발견하였다. 특히, 레몬-픽킹 분석(lemon-picked analysis)을 통해 Guanaco가 ChatGPT에 비해 실패하는 구체적인 사례들을 파악하였다. 본 연구에서는 모든 모델과 코드를 공개하며, 4비트 훈련을 위한 CUDA 커널도 함께 제공한다.

QLoRA: 양자화된 LLM의 효율적인 피팅 | 최신 연구 논문 | HyperAI초신경