9일 전
Pile: 언어 모델링을 위한 다양한 텍스트로 구성된 800GB 데이터셋
Leo Gao, Stella Biderman, Sid Black, Laurence Golding, Travis Hoppe, Charles Foster, Jason Phang, Horace He, Anish Thite, Noa Nabeshima, Shawn Presser, Connor Leahy

초록
최근 연구에서는 훈련 데이터셋의 다양성이 대규모 언어 모델의 일반적인 도메인 간 지식 및 하류 태스크로의 일반화 능력을 향상시킨다는 점을 입증하였다. 이러한 관점에서 우리는 대규모 언어 모델 훈련을 목적으로 한 825 GiB 규모의 영어 텍스트 코퍼스인 \textit{The Pile}을 제안한다. The Pile는 기존 및 새로 구축된 22개의 다양한 고품질 서브셋으로 구성되며, 그 중 다수는 학술 또는 전문적 출처에서 유래하였다. The Pile에서 GPT-2 및 GPT-3의 튜닝되지 않은 성능을 평가한 결과, 이러한 모델들이 학술적 글쓰기와 같은 일부 구성 요소에서는 여전히 어려움을 겪는 것으로 나타났다. 반면, The Pile로 훈련된 모델은 Raw CC 및 CC-100 대비 The Pile의 모든 구성 요소에서 성능이 크게 향상되었으며, 하류 평가에서도 성능 개선이 관찰되었다. 심층적인 탐색적 분석을 통해 향후 사용자에게 주의가 필요할 만한 데이터의 잠재적 문제점을 기록하였다. 또한 본 연구에서 사용된 구축 코드를 공개적으로 제공한다.