초록

대형 기초 모델은 일반적으로 여러 영역의 데이터를 사용하여 훈련되며, 각 영역에서 사용되는 데이터 비율인 데이터 혼합이 모델 성능에 중요한 역할을 합니다. 이 데이터 혼합을 선택하는 표준적인 접근 방식은 시도와 오류에 의존하는데, 대규모 사전 훈련에서는 이러한 방법이 현실적이지 않습니다. 우리는 스케일링 법칙을 사용하여 어떤 목표 영역에 대해서든 최적의 데이터 혼합을 결정하기 위한 체계적인 방법을 제안합니다. 우리의 접근 방식은 크기 $N$ 의 모델이 $D$ 개의 토큰과 특정 영역 가중 벡터 $h$ 로 훈련될 때 손실을 정확히 예측합니다. 우리는 세 가지 서로 다른 대규모 설정에서 이 스케일링 법칙들의 예측력을 통해 그 보편성을 검증하였습니다: 대형 언어 모델 (LLM), 원천 다중 모달 모델 (NMM), 그리고 대형 비전 모델 (LVM) 사전 훈련입니다. 또한, 이 스케일링 법칙들이 새로운 데이터 혼합과 다양한 규모로 외삽될 수 있음을 보여주었습니다: 몇 번의 소규모 훈련 실행으로 그 매개변수를 정확히 추정할 수 있으며, 이를 이용해 더 큰 규모와 미확인된 영역 가중치에서의 성능을 추정할 수 있습니다. 스케일링 법칙은 주어진 훈련 예산 ( $N$ , $D$ ) 하에서 어떤 목표 영역에 대해서든 최적의 영역 가중치를 도출할 수 있어, 비용이 많이 드는 시도와 오류 방법에 대한 원칙적인 대안을 제공합니다.