HyperAIHyperAI

Command Palette

Search for a command to run...

منذ شهر واحد

سد الفجوة بين الوعد والأداء لترميز FP4 في التصغير الدقيق

سد الفجوة بين الوعد والأداء لترميز FP4 في التصغير الدقيق

الملخص

تُعدّ التنسيقات الحديثة المُسرّعة بالعتاد ذات الدقة 4 بت في الصيغة العشرية الكسرية (مثل MXFP4 وNVFP4)، والتي تُدعم على وحدات معالجة الرسوميات من NVIDIA وAMD، واعدة بثورة في عملية استخلاص النماذج اللغوية الكبيرة (LLM). ومع ذلك، ما زال التأثير العملي لهذه التنسيقات غير مثبت. نقدّم أول دراسة شاملة حول MXFP4 وNVFP4 في سياق التكميم بعد التدريب، ونكشف عن الفجوة بين الوعود المعلنة وأداء هذه التنسيقات في البيئات الواقعية. تُظهر تحليلاتنا أن أحدث الأساليب تواجه صعوبات في التعامل مع الدقة 4 بت، وذلك بسبب مشكلتين رئيسيتين: (1) حجم المجموعات الصغير في NVFP4 يُبطل بشكل رياضي تقنيات التخفيف من تأثير القيم الشاذة التقليدية؛ (2) التكميم بنسب قوى العدد 2 في MXFP4 يؤدي إلى انخفاض كبير في الدقة بسبب الخطأ الناتج عن التكميم العالي. ولسد هذه الفجوة، نُقدّم نسخة مُطوّرة من خوارزمية GPTQ الكلاسيكية تُسمّى Micro-Rotated-GPTQ (MR-GPTQ)، والتي تُعدّل عملية التكميم لتتناسب مع الخصائص الفريدة للدقة 4 بت، من خلال استخدام تحويلات هادامارد على مستوى الكتل، وتحسينات مخصصة للتنسيق. ونُدعم هذا الاقتراح بسلسلة من النوى عالية الأداء على وحدات معالجة الرسوميات، التي تُمكّن من تنفيذ تنسيق MR-GPTQ بعبء تشغيلي ضئيل، وذلك عبر دمج عملية الدوران في الوزن، وحساب سريع للإشارات الناتجة (الإدخالات) في الوقت الفعلي. وقد أدى ذلك إلى تسريع بنسبة تصل إلى 3.6 مرة على مستوى الطبقات، و2.2 مرة على مستوى النظام كاملاً، على وحدة NVIDIA B200، وبنسبة 6 مرات على مستوى الطبقات، و4 مرات على مستوى النظام كاملاً، على وحدة RTX5090. كما أظهرت تقييماتنا التجريبية الواسعة أن MR-GPTQ تُوازي أو تفوق أداء أفضل الأساليب الحالية من حيث الدقة، وتعزز بشكل كبير أداء MXFP4، حتى أصبح أداءها قريبًا من أداء NVFP4. نخلص إلى أن الدقة 4 بت ليست تحسينًا تلقائيًا على الدقة 4 بت الصحيحة (INT4)، لكن الأساليب المُخصصة للتنسيق، مثل MR-GPTQ، يمكنها فتح حدود جديدة في التوازن بين الأداء والدقة.

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
سد الفجوة بين الوعد والأداء لترميز FP4 في التصغير الدقيق | الأوراق البحثية | HyperAI