밀도법
덴싱 법칙(Densing Law)은 2024년 12월 청화대학교 자연어처리연구실 류지위안 교수팀이 제안한 대규모 언어 모델(LLM)에 대한 새로운 개념입니다. 관련 논문 결과는 다음과 같습니다.LLM의 밀도 법칙".
밀도 증가 법칙은 대규모 언어 모델(LLM)의 전력 밀도가 시간이 지남에 따라 기하급수적으로 증가한다는 것을 설명합니다. 능력 밀도는 주어진 LLM의 실제 매개변수 크기에 대한 효과적인 매개변수 크기의 비율로 정의되며, 여기서 효과적인 매개변수 크기는 대상 모델과 동일한 성능을 달성하는 데 필요한 참조 모델의 매개변수 수를 나타냅니다. 이 법칙은 다양한 규모에서 LLM의 성과와 효율성을 보여주고 LLM 개발을 평가하고 최적화하는 새로운 관점을 제공합니다.
연구팀은 널리 사용되는 오픈소스 대형 모델 29개를 분석한 결과, LLM의 최대 역량 밀도가 시간이 지남에 따라 기하급수적으로 증가하여 약 3.3개월(약 100일)마다 두 배로 증가한다는 사실을 발견했습니다. 밀도 법칙에 따르면, 모델 추론 오버헤드는 시간이 지남에 따라 기하급수적으로 감소합니다. 2023년 1월부터 현재까지 GPT-3.5 수준 모델의 추론 비용은 266.7배 감소했습니다.
밀도 법칙은 특히 컴퓨팅 리소스 요구 사항과 환경 영향의 증가라는 과제에 직면하여 모델 성능과 효율성 간의 균형을 찾는 것의 중요성을 강조합니다. 또한 이 법칙은 가지치기와 증류와 같은 기존의 모델 압축 방법은 일반적으로 압축된 모델의 밀도를 개선할 수 없다는 점을 지적하며, 이는 작은 모델의 밀도를 개선하기 위해 더 효과적인 모델 압축 알고리즘이 필요하다는 것을 시사합니다.