هندسة كميّة نموذج لغة كبير: GPTQ كخوارزمية النقطة الأقرب لبوباي

تقليل دقة أوزان نماذج اللغة الكبيرة (LLMs) من 16 بت إلى عرض بت أقل هو الأسلوب القياسي لتشغيل المحولات الضخمة على مسرعات أكثر تكلفة. ظهرت GPTQ كواحد من الأساليب القياسية لتقنيات التقليل في الطبقات التالية بعد التدريب (one-shot post-training quantization) على نطاق نماذج اللغة الكبيرة. ومع ذلك، تُوصف أجزاؤها الداخلية كسلسلة من التحديثات الجبرية العشوائية التي تُخفي أي معنى هندسي أو ضمانات في أسوأ الظروف. في هذه الدراسة، نوضح أن GPTQ، عندما يتم تنفيذها من الخلف إلى الأمام (من البعد الأخير إلى الأول)، في طبقة خطية، تُعتبر مطابقة رياضيًا لخوارزمية Babai لحل مشكلة أقرب متجه (CVP) الكلاسيكية على شبكة (lattice) مُعرّفة بمعكوس مصفوفة هيسيان (Hessian matrix) لمدخلات الطبقة. تعتمد هذه المطابقة على حجة رياضية معقدة، وتنتج عنها نتائجين تحليليين: (i) يكتسب خطوة انتشار الخطأ في GPTQ تفسيرًا هندسيًا مفهومًا؛ (ii) ترث GPTQ حد الخطأ الأعلى لخوارزمية Babai تحت شرط عدم قطع القيم (no-clipping condition). معًا، تُعطي هذه النتائج أساسًا نظريًا قويًا لـ GPTQ، وتفتح الباب لاستيراد عقود من التقدم في خوارزميات الشبكات لتصميم خوارزميات تقليل دقة مستقبلية لنماذج تحتوي على ملايين المعايير (billion-parameter models).