2달 전

FineWeb2: 모든 언어를 위한 단일 파이프라인 -- 사전 학습 데이터 처리의 적응

Guilherme Penedo, Hynek Kydl\u00ed\u010dek, Vinko Sabol\u010dec, Bettina Messmer, Negar Foroutan, Amir Hossein Kargaran, Colin Raffel, Martin Jaggi, Leandro Von Werra, Thomas Wolf
FineWeb2: 모든 언어를 위한 단일 파이프라인 -- 사전 학습 데이터 처리의 적응
초록

최신 대형 언어 모델(LLM)의 사전 학습은 깨끗하고 다양한 텍스트 데이터가 대량으로 필요합니다. 고품질 영어 사전 학습 데이터셋의 오픈 개발이 최근 큰 진전을 보였지만, 성능 좋은 다국어 LLM의 학습은 여전히 어려움을 겪고 있습니다. 이는 많은 수의 언어에 맞춤화된 필터링 및 중복 제거 파이프라인을 설계하는 본질적인 어려움 때문입니다. 본 연구에서는 FineWeb를 기반으로 한 새로운 사전 학습 데이터셋 큐레이션 파이프라인을 소개하며, 이 파이프라인은 자동으로 어떤 언어든 지원할 수 있도록 설계되었습니다. 우리는 측정 가능한 기준을 바탕으로 선택된 의미 있고 정보가 풍부한 평가 작업들을 통해 9개의 다양한 언어 집합에서 우리의 파이프라인 설계 선택들을 철저히 분석했습니다. 결국, 우리의 파이프라인이 이전 데이터셋보다 더 성능 좋은 모델을 생성할 수 있는 비영어 코퍼스를 만들 수 있음을 보였습니다. 또한, 중복 횟수와 품질 모두를 고려하여 데이터셋을 재균형화하는 간단하면서도 원칙적인 접근 방식을 제안하여 추가적인 성능 향상을 제공하였습니다. 마지막으로, 우리는 거의 100개의 Common Crawl 스냅샷을 사용하여 1000여 개 언어로 확장하였으며, 이를 통해 20테라바이트(5억 문서) 규모의 새로운 다국어 데이터셋 FineWeb2를 생성하였습니다. 이 데이터셋과 함께 우리의 파이프라인, 학습, 평가 코드베이스를 공개합니다.