BeyondWeb: الدروس المستفادة من توسيع البيانات الاصطناعية للتدريب المسبق بحجم تريليونات

أظهرت التطورات الحديثة في التدريب المسبق للنماذج اللغوية الكبيرة (LLM) أن التوسع البسيط في كمية البيانات يقود في النهاية إلى عائدات متناقصة، ما يُشكّل حاجزًا في البيانات. وفي ردّ على ذلك، برز استخدام البيانات الاصطناعية في التدريب المسبق كنمط واعد لدفع حدود الأداء إلى الأمام. ومع ذلك، لا يزال فهمنا للعوامل المؤثرة على جودة البيانات الاصطناعية محدودًا. في هذه الدراسة، نقدّم "BeyondWeb"، وهي إطار لتصنيع البيانات الاصطناعية يُنتج بيانات اصطناعية عالية الجودة مخصصة للتدريب المسبق. يمتد نطاق قدرات BeyondWeb بشكل كبير مقارنة بالبيانات الواسعة النطاق من الإنترنت التقليدية، حيث تتفوّق على أحدث البيانات الاصطناعية المُدرّبة، مثل Cosmopedia وجزء البيانات الاصطناعية عالية الجودة من Nemotron-CC (Nemotron-Synth)، بنسبة تصل إلى 5.1 نقطة مئوية (pp) و2.6 نقطة مئوية على التوالي، عند متوسط النتائج عبر 14 تقييمًا معياريًا. كما تُسرّع BeyondWeb عملية التدريب حتى 7.7 مرة مقارنة بالبيانات المفتوحة من الإنترنت، و2.7 مرة مقارنة بـ Nemotron-Synth. ومن الملاحظ بشكل استثنائي أن نموذجًا بحجم 3 بيليون معلمة، تم تدريبه على 180 بيليون رمز باستخدام BeyondWeb، تفوق أداءه نموذجًا بحجم 8 بيليون معلمة تم تدريبه بنفس حجم البيانات (180 بيليون رمز) على Cosmopedia. كما نقدّم في هذه الدراسة عدة رؤى مستمدة من BeyondWeb حول البيانات الاصطناعية للتدريب المسبق: ما الذي يُحدث فرقًا في فوائدها، أي نوع البيانات ينبغي إعادة صياغته وكيف، وتأثير حجم النموذج وعائلته على جودة البيانات. بشكل عام، تُظهر دراستنا أن لا يوجد حل سحري لتصنيع بيانات اصطناعية عالية الجودة للتدريب المسبق. فالنتائج المثلى تتطلب تحسينًا متكاملًا لعديد من العوامل معًا، وهي مهمة صعبة تتطلب علمًا دقيقًا وخبرة عملية. فالمقاربات البسيطة قد تؤدي إلى تحسينات طفيفة، وقد تأتي بتكلفة كبيرة، بينما يمكن للأساليب المُطبقة بشكل دقيق أن تُحدث تحوّلات جذرية، كما تُبيّنها حالة BeyondWeb.