Back to Headlines

MIT 연구팀, LLM 효율적 훈련을 위한 정교한 스케일링 법칙 구축 방법 공개

6일 전

대규모 언어모델(LLM) 훈련에서 비용과 성능을 균형 있게 관리하기 위해 연구진은 새로운 스케일링 법칙 구축 방법을 개발했다. MIT와 MIT-IBM 워튼 AI 랩의 재니스 앤드류스, 레셰움 초셴, 양 장 연구진은 40개 모델 계열에서 485개 사전 훈련 모델과 190만 개 성능 지표를 수집해 1,000개 이상의 스케일링 법칙을 분석했다. 이를 통해 작은 모델을 활용해 대규모 모델의 성능을 정확하게 예측할 수 있는 실용적 가이드를 제시했다. 연구에 따르면, 중간 훈련 체크포인트를 포함하거나 최소 5개의 다양한 크기 모델을 훈련하면 예측 정확도가 향상되며, 훈련 데이터의 30%만으로도 효과적인 추정이 가능하다. 특히, 완전 훈련된 모델의 중간 단계를 활용하면 추가 비용 없이 예측이 가능하다는 점이 주목된다. 연구팀은 스케일링 법칙의 정확도는 랜덤 시드 노이즈로 인해 4% 이상의 절대 상대 오차(ARE)는 피할 수 없지만, 20% 이내의 오차도 의사결정에 유용하다고 밝혔다. 또한 다양한 모델 계열 간에도 유사한 하이퍼파라미터 패턴이 존재해, 한 계열의 법칙을 다른 유사 구조 모델에 적용할 수 있음을 확인했다. 이는 고성능 모델 개발에 있어 자원 제약 속에서도 효율적인 전략 수립을 가능하게 한다. 향후 연구는 추론 시간 내 모델의 성능 향상도 예측하는 '추론 시간 스케일링 법칙'으로 확장될 예정이며, 사용자 요청마다 최적의 계산량을 예측하는 데 핵심적일 것으로 기대된다.

Related Links