
초록
우리는 처음으로 대규모 생성형 사전 훈련된 트랜스포머(GPT) 계열 모델이 재훈련 없이 단일 스텝(one-shot)에서 최소 50%의 희소성(sparsity)으로 압축될 수 있음을 보여준다. 이는 정확도 손실이 최소화되는 조건에서 달성된 것으로, 대규모 GPT 계열 모델에서 효율적이고 정확하게 작동하도록 특별히 설계된 새로운 압축 방법인 SparseGPT을 통해 가능해졌다. SparseGPT는 현재 공개된 최대 규모의 오픈소스 모델인 OPT-175B와 BLOOM-176B에 대해 4.5시간 이내에 실행할 수 있으며, 비구조적 희소성(60%)에 도달하면서 퍼플렉서티(perplexity)의 증가가 거의 없이 구현된다. 특히 이 모델들에서 추론 시 1000억 개 이상의 가중치를 무시해도 되는 것으로 나타났다. SparseGPT는 반구조적 패턴(2:4 및 4:8)으로도 일반화 가능하며, 가중치 양자화 기법과도 호환된다. 코드는 다음 링크에서 제공된다: https://github.com/IST-DASLab/sparsegpt.