9일 전

Pythia: 훈련 및 스케일링 전후의 대규모 언어 모델 분석을 위한 솔루션

Stella Biderman, Hailey Schoelkopf, Quentin Anthony, Herbie Bradley, Kyle O&#39, Brien, Eric Hallahan, Mohammad Aflah Khan, Shivanshu Purohit, USVSN Sai Prashanth, Edward Raff, Aviya Skowron, Lintang Sutawika, Oskar van der Wal
Pythia: 훈련 및 스케일링 전후의 대규모 언어 모델 분석을 위한 솔루션
초록

대규모 언어 모델(LLM)은 학습 과정에서 어떻게 발전하고 진화하는가? 모델의 규모가 증가함에 따라 이러한 패턴은 어떻게 변화하는가? 이러한 질문에 답하기 위해, 우리는 공개 데이터를 동일한 순서로 학습시킨 16개의 LLM으로 구성된 \textit{Pythia}를 소개한다. 이 모델들은 파라미터 수가 70M에서 12B에 이르는 다양한 규모를 갖추고 있다. 각 모델에 대해 총 154개의 체크포인트를 공개하며, 추가적인 연구를 위해 각 모델의 정확한 학습 데이터 로더를 다운로드하고 재구성할 수 있는 도구도 함께 제공한다. \textit{Pythia}는 다양한 연구 분야에서의 연구를 촉진하고자 하는 목적으로 개발되었으며, 여기에는 기억성에 대한 새로운 결과, 소수 샘플 성능에 대한 용어 빈도 영향, 성별 편향 감소와 같은 사례 연구들이 포함되어 있다. 본 연구에서는 이러한 매우 통제된 환경이 LLM 및 그 학습 동역학에 대한 새로운 통찰을 도출하는 데 효과적으로 활용될 수 있음을 보여준다. 학습된 모델, 분석 코드, 학습 코드, 학습 데이터는 \url{https://github.com/EleutherAI/pythia}에서 확인할 수 있다.

Pythia: 훈련 및 스케일링 전후의 대규모 언어 모델 분석을 위한 솔루션 | 최신 연구 논문 | HyperAI초신경