HyperAIHyperAI

Command Palette

Search for a command to run...

هندسة كميّة نموذج لغة كبير: GPTQ كخوارزمية النقطة الأقرب لبوباي

Jiale Chen Torsten Hoefler Dan Alistarh

الملخص

تقليل دقة أوزان نماذج اللغة الكبيرة (LLMs) من 16 بت إلى عرض بت أقل هو الأسلوب القياسي لتشغيل المحولات الضخمة على مسرعات أكثر تكلفة. ظهرت GPTQ كواحد من الأساليب القياسية لتقنيات التقليل في الطبقات التالية بعد التدريب (one-shot post-training quantization) على نطاق نماذج اللغة الكبيرة. ومع ذلك، تُوصف أجزاؤها الداخلية كسلسلة من التحديثات الجبرية العشوائية التي تُخفي أي معنى هندسي أو ضمانات في أسوأ الظروف. في هذه الدراسة، نوضح أن GPTQ، عندما يتم تنفيذها من الخلف إلى الأمام (من البعد الأخير إلى الأول)، في طبقة خطية، تُعتبر مطابقة رياضيًا لخوارزمية Babai لحل مشكلة أقرب متجه (CVP) الكلاسيكية على شبكة (lattice) مُعرّفة بمعكوس مصفوفة هيسيان (Hessian matrix) لمدخلات الطبقة. تعتمد هذه المطابقة على حجة رياضية معقدة، وتنتج عنها نتائجين تحليليين: (i) يكتسب خطوة انتشار الخطأ في GPTQ تفسيرًا هندسيًا مفهومًا؛ (ii) ترث GPTQ حد الخطأ الأعلى لخوارزمية Babai تحت شرط عدم قطع القيم (no-clipping condition). معًا، تُعطي هذه النتائج أساسًا نظريًا قويًا لـ GPTQ، وتفتح الباب لاستيراد عقود من التقدم في خوارزميات الشبكات لتصميم خوارزميات تقليل دقة مستقبلية لنماذج تحتوي على ملايين المعايير (billion-parameter models).


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp