Yizhou Liu Ziming Liu Jeff Gore

الملخص
يُعتمد نجاح نماذج اللغة الكبيرة (LLMs) الحديثة على ملاحظة أن النماذج الأكبر تُظهر أداءً أفضل. ومع ذلك، لا يزال مصدر قانون التوسع العصبي، الذي ينص على أن الخطأ (loss) يتناقص وفقًا لقانون القوة مع زيادة حجم النموذج، غير واضح. نقترح أن ازدواجية التمثيل (representation superposition)، أي تمثيل نماذج لغة كبيرة لعدد من الخصائص يفوق عدد الأبعاد المتاحة، قد يكون عاملاً محوريًا في تقليل الخطأ وسببًا رئيسيًا لظاهرة التوسع العصبي. وباستخدام نموذج تجريبي من شركة Anthropic، نستخدم تقليل الوزن (weight decay) للتحكم في درجة ازدواجية التمثيل، مما يسمح لنا بدراسة منهجية كيفية تغير الخطأ مع حجم النموذج. عند وجود ازدواجية ضعيفة، يتبع الخطأ قانون القوة فقط إذا كانت توزيعات تكرار الخصائص في البيانات نفسها تتبع قانون القوة. أما في حالة ازدواجية قوية، فإن الخطأ يتناسب عكسيًا مع البعد الهيكلي للنموذج عبر فئة واسعة من توزيعات التكرار، وذلك بفضل التداخل الهندسي بين متجهات التمثيل. وقد تأكدنا من أن النماذج المفتوحة المصدر لـ LLMs تعمل في النطاق الذي يُميزه ازدواجية قوية، وأن خطأها يتناسب عكسيًا مع حجم النموذج، كما أن قوانين التوسع الخاصة بـ Chinchilla تتماشى أيضًا مع هذا السلوك. تُظهر نتائجنا أن ازدواجية التمثيل تمثل محركًا أساسيًا لقوانين التوسع العصبي، مما يوفر رؤى حول أسئلة مثل متى يمكن تحسين قوانين التوسع العصبي، ومتى ستنهار.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.