HyperAIHyperAI

Command Palette

Search for a command to run...

يُنتج التراكب مقياسًا عصبيًا قويًا

Yizhou Liu Ziming Liu Jeff Gore

Abstract

يُعتمد نجاح نماذج اللغة الكبيرة (LLMs) الحديثة على ملاحظة أن النماذج الأكبر تُظهر أداءً أفضل. ومع ذلك، لا يزال مصدر قانون التوسع العصبي، الذي ينص على أن الخطأ (loss) يتناقص وفقًا لقانون القوة مع زيادة حجم النموذج، غير واضح. نقترح أن ازدواجية التمثيل (representation superposition)، أي تمثيل نماذج لغة كبيرة لعدد من الخصائص يفوق عدد الأبعاد المتاحة، قد يكون عاملاً محوريًا في تقليل الخطأ وسببًا رئيسيًا لظاهرة التوسع العصبي. وباستخدام نموذج تجريبي من شركة Anthropic، نستخدم تقليل الوزن (weight decay) للتحكم في درجة ازدواجية التمثيل، مما يسمح لنا بدراسة منهجية كيفية تغير الخطأ مع حجم النموذج. عند وجود ازدواجية ضعيفة، يتبع الخطأ قانون القوة فقط إذا كانت توزيعات تكرار الخصائص في البيانات نفسها تتبع قانون القوة. أما في حالة ازدواجية قوية، فإن الخطأ يتناسب عكسيًا مع البعد الهيكلي للنموذج عبر فئة واسعة من توزيعات التكرار، وذلك بفضل التداخل الهندسي بين متجهات التمثيل. وقد تأكدنا من أن النماذج المفتوحة المصدر لـ LLMs تعمل في النطاق الذي يُميزه ازدواجية قوية، وأن خطأها يتناسب عكسيًا مع حجم النموذج، كما أن قوانين التوسع الخاصة بـ Chinchilla تتماشى أيضًا مع هذا السلوك. تُظهر نتائجنا أن ازدواجية التمثيل تمثل محركًا أساسيًا لقوانين التوسع العصبي، مما يوفر رؤى حول أسئلة مثل متى يمكن تحسين قوانين التوسع العصبي، ومتى ستنهار.


Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
يُنتج التراكب مقياسًا عصبيًا قويًا | Papers | HyperAI