HyperAIHyperAI

Command Palette

Search for a command to run...

منذ 2 أيام

يُنتج التراكب مقياسًا عصبيًا قويًا

Yizhou Liu Ziming Liu Jeff Gore

يُنتج التراكب مقياسًا عصبيًا قويًا

الملخص

يُعتمد نجاح نماذج اللغة الكبيرة (LLMs) الحديثة على ملاحظة أن النماذج الأكبر تُظهر أداءً أفضل. ومع ذلك، لا يزال مصدر قانون التوسع العصبي، الذي ينص على أن الخطأ (loss) يتناقص وفقًا لقانون القوة مع زيادة حجم النموذج، غير واضح. نقترح أن ازدواجية التمثيل (representation superposition)، أي تمثيل نماذج لغة كبيرة لعدد من الخصائص يفوق عدد الأبعاد المتاحة، قد يكون عاملاً محوريًا في تقليل الخطأ وسببًا رئيسيًا لظاهرة التوسع العصبي. وباستخدام نموذج تجريبي من شركة Anthropic، نستخدم تقليل الوزن (weight decay) للتحكم في درجة ازدواجية التمثيل، مما يسمح لنا بدراسة منهجية كيفية تغير الخطأ مع حجم النموذج. عند وجود ازدواجية ضعيفة، يتبع الخطأ قانون القوة فقط إذا كانت توزيعات تكرار الخصائص في البيانات نفسها تتبع قانون القوة. أما في حالة ازدواجية قوية، فإن الخطأ يتناسب عكسيًا مع البعد الهيكلي للنموذج عبر فئة واسعة من توزيعات التكرار، وذلك بفضل التداخل الهندسي بين متجهات التمثيل. وقد تأكدنا من أن النماذج المفتوحة المصدر لـ LLMs تعمل في النطاق الذي يُميزه ازدواجية قوية، وأن خطأها يتناسب عكسيًا مع حجم النموذج، كما أن قوانين التوسع الخاصة بـ Chinchilla تتماشى أيضًا مع هذا السلوك. تُظهر نتائجنا أن ازدواجية التمثيل تمثل محركًا أساسيًا لقوانين التوسع العصبي، مما يوفر رؤى حول أسئلة مثل متى يمكن تحسين قوانين التوسع العصبي، ومتى ستنهار.

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
يُنتج التراكب مقياسًا عصبيًا قويًا | الأوراق البحثية | HyperAI