HyperAI

الملخص

يُعتمد نجاح نماذج اللغة الكبيرة (LLMs) الحديثة على ملاحظة أن النماذج الأكبر تُظهر أداءً أفضل. ومع ذلك، لا يزال مصدر قانون التوسع العصبي، الذي ينص على أن الخطأ (loss) يتناقص وفقًا لقانون القوة مع زيادة حجم النموذج، غير واضح. نقترح أن ازدواجية التمثيل (representation superposition)، أي تمثيل نماذج لغة كبيرة لعدد من الخصائص يفوق عدد الأبعاد المتاحة، قد يكون عاملاً محوريًا في تقليل الخطأ وسببًا رئيسيًا لظاهرة التوسع العصبي. وباستخدام نموذج تجريبي من شركة Anthropic، نستخدم تقليل الوزن (weight decay) للتحكم في درجة ازدواجية التمثيل، مما يسمح لنا بدراسة منهجية كيفية تغير الخطأ مع حجم النموذج. عند وجود ازدواجية ضعيفة، يتبع الخطأ قانون القوة فقط إذا كانت توزيعات تكرار الخصائص في البيانات نفسها تتبع قانون القوة. أما في حالة ازدواجية قوية، فإن الخطأ يتناسب عكسيًا مع البعد الهيكلي للنموذج عبر فئة واسعة من توزيعات التكرار، وذلك بفضل التداخل الهندسي بين متجهات التمثيل. وقد تأكدنا من أن النماذج المفتوحة المصدر لـ LLMs تعمل في النطاق الذي يُميزه ازدواجية قوية، وأن خطأها يتناسب عكسيًا مع حجم النموذج، كما أن قوانين التوسع الخاصة بـ Chinchilla تتماشى أيضًا مع هذا السلوك. تُظهر نتائجنا أن ازدواجية التمثيل تمثل محركًا أساسيًا لقوانين التوسع العصبي، مما يوفر رؤى حول أسئلة مثل متى يمكن تحسين قوانين التوسع العصبي، ومتى ستنهار.

الملخص

يُنتج التراكب مقياسًا عصبيًا قويًا

Yizhou Liu Ziming Liu Jeff Gore

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

Hyper Newsletters

يُنتج التراكب مقياسًا عصبيًا قويًا

Yizhou Liu Ziming Liu Jeff Gore

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

Hyper Newsletters

Command Palette

يُنتج التراكب مقياسًا عصبيًا قويًا

Yizhou Liu Ziming Liu Jeff Gore

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

Hyper Newsletters

Command Palette

يُنتج التراكب مقياسًا عصبيًا قويًا

Yizhou Liu Ziming Liu Jeff Gore

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

Hyper Newsletters