HyperAIHyperAI
منذ 3 أيام

الكمّية تلتقي بالنماذج اللغوية التوليدية الكبيرة: دراسة منهجية لكمّية التدريب اللاحق للنماذج اللغوية التوليدية

Haokun Lin, Haobo Xu, Yichen Wu, Ziyu Guo, Renrui Zhang, Zhichao Lu, et al
الكمّية تلتقي بالنماذج اللغوية التوليدية الكبيرة: دراسة منهجية لكمّية التدريب اللاحق للنماذج اللغوية التوليدية
الملخص

أظهرت التطورات الحديثة في نماذج اللغة الكبيرة القائمة على النمذجة الانتشارية (dLLMs) بديلاً واعداً لنموذج لغة كبيرة ذاتية التوليد (AR LLMs) في مهام توليد اللغة الطبيعية، وذلك من خلال الاستفادة من استراتيجيات الانتباه الكامل واستراتيجيات فك التشفير القائمة على إزالة الضوضاء. ومع ذلك، يظل تطبيق هذه النماذج على الأجهزة الحافة تحدياً كبيراً نظراً لحجم المعلمات الهائل واحتياجاتها العالية من الموارد. وعلى الرغم من أن تقنية التكميم بعد التدريب (PTQ) أصبحت تقنية شائعة الاستخدام لتقليل حجم النماذج ذاتية التوليد، إلا أن تطبيقاتها على نماذج اللغة القائمة على الانتشار لم تُدرس بشكل كافٍ حتى الآن. في هذا العمل، نقدم أول دراسة منهجية حول تكميم نماذج اللغة القائمة على الانتشار. نبدأ بتحديد وجود قيم شاذة في الإشارات (activation outliers)، المميزة بقيم إشارات غير طبيعية كبيرة تهيمن على النطاق الديناميكي. وتشكل هذه القيم الشاذة تحدياً رئيسياً في التكميم بعدد بتات منخفض، حيث تجعل من الصعب الحفاظ على الدقة بالنسبة لمعظم القيم. وبشكل أكثر أهمية، نُطبّق أحدث الأساليب المتطورة لتكميم ما بعد التدريب، ونُجري تقييماً شاملاً عبر عدة أنواع من المهام ونماذج مختلفة. وينقسم تحليلنا إلى أربعة أبعاد رئيسية: عرض البت، وطريقة التكميم، وفئة المهمة، ونوع النموذج. من خلال هذا التقييم من منظور متعدد الأبعاد، نقدم رؤى عملية حول سلوك التكميم في نماذج dLLMs تحت تكوينات مختلفة. ونأمل أن تُمكّن نتائجنا الباحثين من بناء أساس متين للبحث المستقبلي في تطبيق نماذج dLLM بكفاءة. وسوف نُطلق جميع الشفرات والبيئة التجريبية لدعم المجتمع البحثي.