SparseGPT: يمكن قص النماذج اللغوية الضخمة بدقة في خطوة واحدة

نُظهر لأول مرة أن نماذج الأسرة الكبيرة الحجم من النماذج المُدرَّبة مسبقًا باستخدام المحولات التوليدية (GPT) يمكن تقليلها بنسبة تصل إلى 50% من الكثافة (sparsity) دفعة واحدة، دون الحاجة إلى إعادة التدريب، وبخسارة ضئيلة جدًا في الدقة. يتم ذلك من خلال طريقة تقطيع جديدة تُسمى SparseGPT، المصممة خصيصًا للعمل بكفاءة ودقة على النماذج الضخمة من أسرة GPT. يمكننا تنفيذ SparseGPT على أكبر النماذج المفتوحة المصدر المتاحة، وهي OPT-175B وBLOOM-176B، في أقل من 4.5 ساعات، ونتمكن من الوصول إلى كثافة غير منظَّمة بنسبة 60% مع زيادة ضئيلة جدًا في معامل التباس (perplexity): وبشكل ملحوظ، يمكن تجاهل أكثر من 100 مليار وزن من هذه النماذج أثناء عملية الاستدلال. وتمتد خاصية SparseGPT لتشمل أنماط شبه منظمة (2:4 و4:8)، وهي متوافقة مع تقنيات كمية التوزيع (weight quantization). يمكن الوصول إلى الشفرة المصدرية من خلال الرابط التالي: https://github.com/IST-DASLab/sparsegpt.