البيلا: مجموعة بيانات بحجم 800 جيجابايت من نصوص متنوعة للنمذجة اللغوية

أظهرت الدراسات الحديثة أن زيادة تنوع مجموعة التدريب تُحسّن المعرفة العامة عبر المجالات المختلفة وقدرة النموذج على التعميم في المهام اللاحقة بالنسبة للنماذج اللغوية الضخمة. وبناءً على هذا الفهم، نقدّم \textit{الكتلة} (The Pile): مجموعة نصية إنجليزية بحجم 825 جيبيت، مُوجَّهة لتدريب النماذج اللغوية الضخمة. تُركّب الكتلة من 22 مجموعة فرعية متنوعة ذات جودة عالية — بعضها موجود مسبقًا وبعضها تم إنشاؤه حديثًا — وتشمل العديد من المصادر الأكاديمية أو المهنية. أظهر تقييمنا للأداء غير المُعدَّل لنموذجَي GPT-2 وGPT-3 على الكتلة أن هذه النماذج تواجه صعوبات في العديد من مكوناتها، مثل الكتابة الأكاديمية. في المقابل، تُظهر النماذج المدربة على الكتلة تحسنًا ملحوظًا مقارنةً بكل من Raw CC وCC-100 على جميع مكونات الكتلة، مع تحسّن في الأداء على التقييمات اللاحقة. ومن خلال تحليل استكشافي معمّق، نوثّق جوانب محتملة تثير القلق في البيانات بالنسبة للمستخدمين المحتملين. ونُقدّم بشكل علني الشيفرة البرمجية المستخدمة في بناء الكتلة.