Command Palette
Search for a command to run...
INT مقابل FP: دراسة شاملة لتنسيقات التكميم من الدرجة الدقيقة ببت منخفض

الملخص
تتبنى الأجهزة الحديثة المُصممة للذكاء الاصطناعي، مثل معمارية بل랙ويل من نيفيديا، بشكل متزايد تنسيقات الفاصلة العائمة ذات الدقة المنخفضة (FP) لمعالجة القيم الشاذة الواسعة الانتشار في نماذج اللغة الكبيرة (LLMs). وعلى الرغم من هذا الاتجاه الصناعي، فقد غاب عن المجال مقارنة موحدة بين التكميم بالفاصلة العائمة (FP) والتكميم الصحيح (INT) عبر مختلف مستويات التفصيل، ما ترك تصميم الخوارزميات والهاردوير دون إرشادات واضحة. يُغطي هذا البحث الفجوة المذكورة من خلال دراسة منهجية للتنازلات بين التنسيقات FP وINT. نكشف عن نقطة تجاوز أداء حاسمة: فبينما تتفوق FP في التكميم الخشن، فإن المقارنة على المستويات الدقيقة (الكتلية) تكون أكثر تعقيدًا. تُظهر مقارنتنا الشاملة أن التنسيق الشائع 8 بت المُفصّل دقيقًا (مثل MX بحجم كتلة 32) يتفوق في الدقة الخوارزمية والكفاءة الهاردويرية على نظيره في التنسيق FP، حيث يُعرف بـ MXINT8. ومع ذلك، في حالة التنسيقات 4 بت، يمتلك FP (مثل MXFP4 وNVFP4) غالبًا ميزة في الدقة، رغم أننا نُظهر أن NVINT4 يمكن أن يتفوق على NVFP4 عند تطبيق تقنيات تقليل التأثيرات الشاذة، مثل التدوير الهاداماردي. كما نُقدّم طريقة قصّ متماثلة تُحلّ مشكلة انحياز التدرج في تدريب التكميم الصحيح منخفض البت على مستوى الدقة، مما يُمكّن من تحقيق أداء شبه خالي من الخسارة في تدريب MXINT8. تُشكّل هذه النتائج تحديًا للمسار الحالي للهاردوير، وتُظهر أن النهج الموحّد القائم على FP غير مثالي، وتدعم استخدام التنسيقات الصحيحة الدقيقة، وبخاصة MXINT8، كحل يحقق توازنًا أفضل بين الدقة، واستهلاك الطاقة، والكفاءة في مُسرّعات الذكاء الاصطناعي المستقبلية.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.