منذ 2 أيام

BeyondWeb: الدروس المستفادة من توسيع البيانات الاصطناعية للتدريب المسبق بحجم تريليونات

Pratyush Maini, Vineeth Dorna, Parth Doshi, Aldo Carranza, Fan Pan, Jack Urbanek, Paul Burstein, Alex Fang, Alvin Deng, Amro Abbas, Brett Larsen, Cody Blakeney, Charvi Bannur, Christina Baek, Darren Teh, David Schwab, Haakon Mongstad, Haoli Yin, Josh Wills, Kaleigh Mentzer, Luke Merrick, Ricardo Monti, Rishabh Adiga, Siddharth Joshi, Spandan Das, Zhengping Wang, Bogdan Gaza, Ari Morcos, Matthew Leavitt

عرض تفاصيل الورقة البحثية

BeyondWeb: الدروس المستفادة من توسيع البيانات الاصطناعية للتدريب المسبق بحجم تريليونات

الملخص

أظهرت التطورات الحديثة في التدريب المسبق للنماذج اللغوية الكبيرة (LLM) أن التوسع البسيط في كمية البيانات يقود في النهاية إلى عائدات متناقصة، ما يُشكّل حاجزًا في البيانات. وفي ردّ على ذلك، برز استخدام البيانات الاصطناعية في التدريب المسبق كنمط واعد لدفع حدود الأداء إلى الأمام. ومع ذلك، لا يزال فهمنا للعوامل المؤثرة على جودة البيانات الاصطناعية محدودًا. في هذه الدراسة، نقدّم "BeyondWeb"، وهي إطار لتصنيع البيانات الاصطناعية يُنتج بيانات اصطناعية عالية الجودة مخصصة للتدريب المسبق. يمتد نطاق قدرات BeyondWeb بشكل كبير مقارنة بالبيانات الواسعة النطاق من الإنترنت التقليدية، حيث تتفوّق على أحدث البيانات الاصطناعية المُدرّبة، مثل Cosmopedia وجزء البيانات الاصطناعية عالية الجودة من Nemotron-CC (Nemotron-Synth)، بنسبة تصل إلى 5.1 نقطة مئوية (pp) و2.6 نقطة مئوية على التوالي، عند متوسط النتائج عبر 14 تقييمًا معياريًا. كما تُسرّع BeyondWeb عملية التدريب حتى 7.7 مرة مقارنة بالبيانات المفتوحة من الإنترنت، و2.7 مرة مقارنة بـ Nemotron-Synth. ومن الملاحظ بشكل استثنائي أن نموذجًا بحجم 3 بيليون معلمة، تم تدريبه على 180 بيليون رمز باستخدام BeyondWeb، تفوق أداءه نموذجًا بحجم 8 بيليون معلمة تم تدريبه بنفس حجم البيانات (180 بيليون رمز) على Cosmopedia. كما نقدّم في هذه الدراسة عدة رؤى مستمدة من BeyondWeb حول البيانات الاصطناعية للتدريب المسبق: ما الذي يُحدث فرقًا في فوائدها، أي نوع البيانات ينبغي إعادة صياغته وكيف، وتأثير حجم النموذج وعائلته على جودة البيانات. بشكل عام، تُظهر دراستنا أن لا يوجد حل سحري لتصنيع بيانات اصطناعية عالية الجودة للتدريب المسبق. فالنتائج المثلى تتطلب تحسينًا متكاملًا لعديد من العوامل معًا، وهي مهمة صعبة تتطلب علمًا دقيقًا وخبرة عملية. فالمقاربات البسيطة قد تؤدي إلى تحسينات طفيفة، وقد تأتي بتكلفة كبيرة، بينما يمكن للأساليب المُطبقة بشكل دقيق أن تُحدث تحوّلات جذرية، كما تُبيّنها حالة BeyondWeb.