منذ 11 أيام

QLoRA: تحسين كفاءة النماذج الكبيرة المُكمَّلة بالكمّية

Tim Dettmers, Artidoro Pagnoni, Ari Holtzman, Luke Zettlemoyer

الملخص

نقدّم QLoRA، وهي منهجية فعّالة للتعديل المُعدّل (fine-tuning) تقلّل من استهلاك الذاكرة بما يكفي لتمكين تعديل نموذج يحتوي على 65 مليار معلمة على وحدة معالجة واحدة بذاكرة 48 جيجابايت، مع الحفاظ على أداء كامل عند التعديل بـ 16 بت. تقوم QLoRA بتمرير التدرجات (backpropagation) عبر نموذج لغوي مُدرّب مسبقًا متجمّد ومقنّن بـ 4 بت إلى وحدات التكييف ذات الرتبة المنخفضة (Low Rank Adapters – LoRA). وقد حقّق أفضل عائلة من النماذج التي أطلقنا عليها اسم Guanaco تفوّقًا على جميع النماذج المُتاحة مسبقًا من حيث الأداء في اختبار Vicuna، حيث بلغت 99.3% من مستوى أداء ChatGPT، مع احتياجها فقط إلى 24 ساعة من التعديل على وحدة معالجة واحدة. تُقدّم QLoRA عددًا من الابتكارات التي تُقلّل من استهلاك الذاكرة دون التضحية بالأداء، وهي:(أ) نوع بيانات جديد يُسمّى 4-bit NormalFloat (NF4)، وهو نوع بيانات مُحسّن نظريًا من حيث المعلومات لوزن موزّع طبيعيًا،(ب) التقطيع المزدوج (double quantization) الذي يقلّل من الحجم المتوسط للذاكرة من خلال تقليل دقة ثوابت التقطيع،(ج) مُحسّنات مُدارة بصفحات (paged optimizers) التي تُدار بها ذروات استهلاك الذاكرة. استخدمنا QLoRA لتعديل أكثر من 1000 نموذج، وقمنا بتحليل مفصّل لأداء المتابعة للتعليمات والدردشة على 8 مجموعات بيانات تعليمية، وعدد من أنواع النماذج (مثل LLaMA وT5)، ومقاييس مختلفة للنماذج، وهو ما كان مستحيلًا تنفيذه باستخدام التعديل المعتاد (مثل النماذج ذات 33 مليار و65 مليار معلمة). أظهرت نتائجنا أن التعديل باستخدام QLoRA على مجموعة بيانات صغيرة عالية الجودة يؤدي إلى نتائج من الطراز الأول، حتى عند استخدام نماذج أصغر من النماذج السابقة التي كانت تُعدّ الأفضل في المجال. كما قدّمنا تحليلًا مفصّلًا لأداء الدردشة بناءً على تقييمات بشريّة وقيّم من GPT-4، وأظهرنا أن تقييم GPT-4 يُعدّ بديلًا رخيصًا وملائمًا لتقييم البشر. بالإضافة إلى ذلك، وجدنا أن المعايير الحالية لاختبارات الدردشة لا يمكن الاعتماد عليها لتقدير دقيق لأداء النماذج. وتمّ إجراء تحليل "مُنتقى بعناية" (lemon-picked analysis) لتحديد أوجه الفشل التي يُظهرها Guanaco مقارنة بـ ChatGPT. وأطلقنا جميع نماذجنا وشفراتنا المصدرية، بما في ذلك نُوات جافا كود (CUDA kernels) الخاصة بالتدريب بـ 4 بت.