FineWeb2: أنبوب واحد لتوسيع نطاق كل اللغات -- تكييف معالجة بيانات التدريب الأولي لكل لغة

تتطلب التدريب الأولي للنماذج اللغوية الكبيرة ذات المستوى الرائد (LLMs) كميات ضخمة من البيانات النصية النظيفة والمتنوعة. بينما شهد التطوير المفتوح لمجموعات البيانات الأولية عالية الجودة باللغة الإنجليزية تقدماً كبيراً في الآونة الأخيرة، لا يزال تدريب نماذج LLM متعددة اللغات الأداء جيدًا تحديًا، وذلك بشكل كبير بسبب الصعوبة المتأصلة في تكييف خطوط المعالجة لتصفية وإزالة التكرار لعدد كبير من اللغات. في هذا البحث، نقدم خط أنابيب جديد لإدارة مجموعات البيانات الأولية يستند إلى FineWeb يمكن تكييفه تلقائيًا لدعم أي لغة. قمنا بإجراء دراسات مكثفة على الخيارات التصميمية لخط الأنابيب الخاص بنا باستخدام مجموعة من تسعة لغات متنوعة، وتم إرشاد هذه الدراسات بواسطة مجموعة من المهام التقييمية ذات المعنى والمعلوماتية التي تم اختيارها عبر عملية انتقاء جديدة تعتمد على معايير قابلة للقياس. في النهاية، أظهرنا أن خط الأنابيب الخاص بنا يمكن استخدامه لإنشاء مجموعات بيانات غير إنجليزية تنتج نماذج ذات أداء أفضل من تلك التي تم إنشاؤها باستخدام المجموعات السابقة. بالإضافة إلى ذلك، نقدم طريقة مباشرة ومبدئية لإعادة توازن المجموعات التي تأخذ في الاعتبار عدد التكرارات وجودة البيانات، مما يوفر زيادة إضافية في الأداء. وأخيرًا، قمنا بتوسيع نطاق خط الأنابيب الخاص بنا ليشمل أكثر من 1000 لغة باستخدام ما يقارب 100 صورة مشتركة (Common Crawl snapshots) لإنتاج FineWeb2، وهي مجموعة بيانات متعددة اللغات جديدة حجمها 20 تيرابايت (5 مليارات وثيقة) والتي نطلقها مع خط الأنابيب وكود التدريب والتقييم الخاص بنا.