2달 전
FineWeb2: 모든 언어를 위한 단일 파이프라인 -- 사전 학습 데이터 처리의 적응
Guilherme Penedo, Hynek Kydl\u00ed\u010dek, Vinko Sabol\u010dec, Bettina Messmer, Negar Foroutan, Amir Hossein Kargaran, Colin Raffel, Martin Jaggi, Leandro Von Werra, Thomas Wolf

초록
최신 대형 언어 모델(LLM)의 사전 학습은 깨끗하고 다양한 텍스트 데이터가 대량으로 필요합니다. 고품질 영어 사전 학습 데이터셋의 오픈 개발이 최근 큰 진전을 보였지만, 성능 좋은 다국어 LLM의 학습은 여전히 어려움을 겪고 있습니다. 이는 많은 수의 언어에 맞춤화된 필터링 및 중복 제거 파이프라인을 설계하는 본질적인 어려움 때문입니다. 본 연구에서는 FineWeb를 기반으로 한 새로운 사전 학습 데이터셋 큐레이션 파이프라인을 소개하며, 이 파이프라인은 자동으로 어떤 언어든 지원할 수 있도록 설계되었습니다. 우리는 측정 가능한 기준을 바탕으로 선택된 의미 있고 정보가 풍부한 평가 작업들을 통해 9개의 다양한 언어 집합에서 우리의 파이프라인 설계 선택들을 철저히 분석했습니다. 결국, 우리의 파이프라인이 이전 데이터셋보다 더 성능 좋은 모델을 생성할 수 있는 비영어 코퍼스를 만들 수 있음을 보였습니다. 또한, 중복 횟수와 품질 모두를 고려하여 데이터셋을 재균형화하는 간단하면서도 원칙적인 접근 방식을 제안하여 추가적인 성능 향상을 제공하였습니다. 마지막으로, 우리는 거의 100개의 Common Crawl 스냅샷을 사용하여 1000여 개 언어로 확장하였으며, 이를 통해 20테라바이트(5억 문서) 규모의 새로운 다국어 데이터셋 FineWeb2를 생성하였습니다. 이 데이터셋과 함께 우리의 파이프라인, 학습, 평가 코드베이스를 공개합니다.