2 个月前
FineWeb2:一管通天下——适应每种语言的预训练数据处理
Guilherme Penedo, Hynek Kydl\u00ed\u010dek, Vinko Sabol\u010dec, Bettina Messmer, Negar Foroutan, Amir Hossein Kargaran, Colin Raffel, Martin Jaggi, Leandro Von Werra, Thomas Wolf

摘要
预训练最先进的大型语言模型(LLMs)需要大量的干净且多样的文本数据。尽管高质量的开源英语预训练数据集的开发已取得显著进展,但训练高性能的多语言LLMs仍然面临挑战,这在很大程度上是由于为大量语言定制过滤和去重管道的固有难度。在这项工作中,我们介绍了一种基于FineWeb的新预训练数据集编纂管道,该管道可以自动适应任何语言。我们在九种不同的语言上广泛测试了我们的管道设计选择,这些测试由一组有意义且信息丰富的评估任务指导,而这些任务的选择则是通过一种基于可测量标准的新颖选择过程完成的。最终,我们证明了我们的管道可以用于创建比先前数据集产生更高性能模型的非英语语料库。此外,我们还提出了一种简单且合理的方法来重新平衡数据集,该方法同时考虑了重复次数和质量,从而提供了额外的性能提升。最后,我们使用近100个Common Crawl快照将管道扩展到超过1000种语言,生成了一个新的20太字节(50亿文档)多语言数据集FineWeb2,并与我们的管道、训练和评估代码库一同发布。