HyperAIHyperAI

Command Palette

Search for a command to run...

최적의 데이터 혼합을 위한 스케일링 법칙

Mustafa Shukor Louis Bethune Dan Busbridge David Grangier Enrico Fini Alaaeldin El-Nouby Pierre Ablin

초록

대형 기초 모델은 일반적으로 여러 영역의 데이터를 사용하여 훈련되며, 각 영역에서 사용되는 데이터 비율인 데이터 혼합이 모델 성능에 중요한 역할을 합니다. 이 데이터 혼합을 선택하는 표준적인 접근 방식은 시도와 오류에 의존하는데, 대규모 사전 훈련에서는 이러한 방법이 현실적이지 않습니다. 우리는 스케일링 법칙을 사용하여 어떤 목표 영역에 대해서든 최적의 데이터 혼합을 결정하기 위한 체계적인 방법을 제안합니다. 우리의 접근 방식은 크기 NNN의 모델이 DDD 개의 토큰과 특정 영역 가중 벡터 hhh로 훈련될 때 손실을 정확히 예측합니다. 우리는 세 가지 서로 다른 대규모 설정에서 이 스케일링 법칙들의 예측력을 통해 그 보편성을 검증하였습니다: 대형 언어 모델 (LLM), 원천 다중 모달 모델 (NMM), 그리고 대형 비전 모델 (LVM) 사전 훈련입니다. 또한, 이 스케일링 법칙들이 새로운 데이터 혼합과 다양한 규모로 외삽될 수 있음을 보여주었습니다: 몇 번의 소규모 훈련 실행으로 그 매개변수를 정확히 추정할 수 있으며, 이를 이용해 더 큰 규모와 미확인된 영역 가중치에서의 성능을 추정할 수 있습니다. 스케일링 법칙은 주어진 훈련 예산 (NNN, DDD) 하에서 어떤 목표 영역에 대해서든 최적의 영역 가중치를 도출할 수 있어, 비용이 많이 드는 시도와 오류 방법에 대한 원칙적인 대안을 제공합니다.


AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩
바로 사용 가능한 GPU
최적의 가격

HyperAI Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
최적의 데이터 혼합을 위한 스케일링 법칙 | 문서 | HyperAI초신경