منذ 16 أيام

البعد الداخلي يفسر فعالية التكييف في نماذج اللغة

Armen Aghajanyan, Luke Zettlemoyer, Sonal Gupta

الملخص

رغم أن النماذج اللغوية المُدرَّبة مسبقًا يمكن تحسينها بدقة لتقديم نتائج رائدة في طائفة واسعة جدًا من مهام فهم اللغة، إلا أن ديناميكية هذه العملية لا تزال غير مفهومة جيدًا، خصوصًا في البيئات ذات البيانات المحدودة. فلماذا يمكننا استخدام خوارزميات تدرج بسيطة نسبيًا (مثل التدرج المُنخفض دون تقوية قوية للتنظيم) لضبط نموذج يحتوي على مئات الملايين من المعاملات على مجموعات بيانات تحتوي فقط على مئات أو آلاف العينات المُصنّفة؟ في هذا البحث، نجادل بأن تحليل عملية التحسين من منظور البُعد الداخلي (intrinsic dimension) يزوّدنا بتأويلات تجريبية ونظرية تفسر هذه الظاهرة الاستثنائية. نُظهر تجريبيًا أن النماذج المُدرَّبة مسبقًا الشائعة تمتلك بُعدًا داخليًا منخفضًا جدًا؛ بمعنى آخر، توجد إعادة تعميم بُعديّة منخفضة تكون فعّالة في التحسين بنفس قدر الفضاء الكامل للمعاملات. على سبيل المثال، من خلال تحسين 200 معامل قابلة للضبط فقط، تم اختيارها عشوائيًا ثم تProjectionها مرة أخرى إلى الفضاء الكامل، يمكننا ضبط نموذج RoBERTa لتحقيق 90% من مستوى الأداء الكامل للنموذج على مجموعة بيانات MRPC. علاوة على ذلك، نُظهر تجريبيًا أن التدريب المسبق يقلل ضمنيًا من البُعد الداخلي، وربما بشكل مفاجئ، فإن النماذج الأكبر تميل إلى امتلاك بُعد داخلي أقل بعد عدد ثابت من خطوات التدريب المسبق، مما يفسر جزئيًا كفاءتها الاستثنائية. وأخيرًا، نربط بين البُعد الداخلي وتمثيلات المهام ذات الأبعاد المنخفضة، ونربطه أيضًا بحدود عامّة تعتمد على الضغط (compression-based generalization bounds)، لتقديم حدود تعميم قائمة على البُعد الداخلي، تكون مستقلة عن عدد المعاملات الكامل.