쉐어드 LLAMA: 구조적 프루닝을 통한 언어 모델 사전 훈련의 가속화

LLaMA(Touvron 등, 2023a;b) 및 최근 등장한 기타 중간 규모의 대규모 언어 모델(LLM)의 인기는, 더 작지만 강력한 LLM을 구축할 수 있는 잠재력을 부각시키고 있다. 그럼에도 불구하고, 수조 개의 토큰을 기반으로 이러한 모델을 처음부터 훈련하는 데 드는 비용은 여전히 매우 높다. 본 연구에서는 사전 훈련된 대규모 모델로부터 더 작고 효율적인 LLM을 개발하기 위한 효과적인 방법으로 구조적 프리닝(structured pruning)을 탐구한다. 본 연구의 접근법은 두 가지 핵심 기술을 활용한다: (1) 대상 구조에 맞춰 레이어, 헤드, 중간 및 은닉 차원을 종단 간(end-to-end) 방식으로 제거함으로써 더 큰 모델을 특정 목표 크기로 줄이는 타겟팅된 구조적 프리닝, 그리고 (2) 다양한 도메인에서 발생하는 손실 변화에 따라 각 훈련 배치의 샘플링 데이터 구성이 동적으로 업데이트되는 동적 배치 로딩(dynamic batch loading). 본 연구에서는 LLaMA2-7B 모델을 1.3B 및 2.7B 파라미터로 프리닝하여 Sheared-LLaMA 시리즈를 제안함으로써 본 방법의 효과성을 입증한다. Sheared-LLaMA 모델은 Pythia, INCITE, OpenLLaMA 및 동시 출시된 TinyLlama와 같은 동급 규모의 최신 오픈소스 모델들을 상회하는 성능을 다양한 하류 작업 및 지시어 훈련 평가에서 보이며, 동시에 이러한 모델을 처음부터 훈련하는 데 필요한 계산 자원의 단 3%만으로도 충분하다. 본 연구는 기존의 LLM을 구조적 프리닝을 통해 활용하는 것이 경쟁력 있는 소규모 LLM을 구축하는 데 훨씬 더 비용 효율적인 접근임을 설득력 있게 제시한다.