HyperAIHyperAI

Command Palette

Search for a command to run...

FineWeb2: أنبوب واحد لتوسيع نطاق كل اللغات -- تكييف معالجة بيانات التدريب الأولي لكل لغة

Guilherme Penedo Hynek Kydl\u00ed\u010dek Vinko Sabol\u010dec Bettina Messmer Negar Foroutan Amir Hossein Kargaran Colin Raffel Martin Jaggi Leandro Von Werra Thomas Wolf

الملخص

تتطلب التدريب الأولي للنماذج اللغوية الكبيرة ذات المستوى الرائد (LLMs) كميات ضخمة من البيانات النصية النظيفة والمتنوعة. بينما شهد التطوير المفتوح لمجموعات البيانات الأولية عالية الجودة باللغة الإنجليزية تقدماً كبيراً في الآونة الأخيرة، لا يزال تدريب نماذج LLM متعددة اللغات الأداء جيدًا تحديًا، وذلك بشكل كبير بسبب الصعوبة المتأصلة في تكييف خطوط المعالجة لتصفية وإزالة التكرار لعدد كبير من اللغات. في هذا البحث، نقدم خط أنابيب جديد لإدارة مجموعات البيانات الأولية يستند إلى FineWeb يمكن تكييفه تلقائيًا لدعم أي لغة. قمنا بإجراء دراسات مكثفة على الخيارات التصميمية لخط الأنابيب الخاص بنا باستخدام مجموعة من تسعة لغات متنوعة، وتم إرشاد هذه الدراسات بواسطة مجموعة من المهام التقييمية ذات المعنى والمعلوماتية التي تم اختيارها عبر عملية انتقاء جديدة تعتمد على معايير قابلة للقياس. في النهاية، أظهرنا أن خط الأنابيب الخاص بنا يمكن استخدامه لإنشاء مجموعات بيانات غير إنجليزية تنتج نماذج ذات أداء أفضل من تلك التي تم إنشاؤها باستخدام المجموعات السابقة. بالإضافة إلى ذلك، نقدم طريقة مباشرة ومبدئية لإعادة توازن المجموعات التي تأخذ في الاعتبار عدد التكرارات وجودة البيانات، مما يوفر زيادة إضافية في الأداء. وأخيرًا، قمنا بتوسيع نطاق خط الأنابيب الخاص بنا ليشمل أكثر من 1000 لغة باستخدام ما يقارب 100 صورة مشتركة (Common Crawl snapshots) لإنتاج FineWeb2، وهي مجموعة بيانات متعددة اللغات جديدة حجمها 20 تيرابايت (5 مليارات وثيقة) والتي نطلقها مع خط الأنابيب وكود التدريب والتقييم الخاص بنا.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp