Beyond 8-bit Quantization: The Era of 1.58-Bit LLMs A New Paradigm in AI Efficiency That Delivers Full Performance with Ternary Weights
في ظل التوسع الهائل لذكاء اصطناعي العام، أصبحت النماذج الضخمة مرهقة من حيث الطاقة والتكلفة، مما جعلها حكرًا على شركات كبرى. لكن ثورة جديدة تلوح في الأفق: نماذج لغوية ضخمة (LLMs) بحجم 1.58 بت فقط، التي تحقق أداءً مماثلًا للنماذج التقليدية بذكاء وفعالية لا تُضاهى. الانقلاب يبدأ بفكرة بسيطة: بدلاً من تقليل دقة الأوزان بطرق تقليدية (مثل 8 بت أو 4 بت)، يُستخدم نموذج يعتمد على ثلاث قيم فقط: -1، 0، +1. هذا ما يُعرف بـ"طبقة BitLinear" في بحث "The Era of 1-bit LLMs" (ما وآخرون، 2024). في هذا النموذج، لا حاجة لعمليات ضرب معقدة، لأن الضرب في -1، 0، أو +1 يُعادل تغيير الإشارة، أو حذف، أو إبقاء القيمة كما هي — ما يُقلل التكلفة الحسابية بشكل جذري. لكن كيف يتعلم نموذج بسيط كهذا؟ السر يكمن في "مُدرب خفي" (Ghost Coach): أثناء التدريب، يُستخدم نسخة عالية الدقة من الأوزان لحساب التصحيحات، ثم تُطبَّق النتائج على النموذج المنخفض الدقة باستخدام تقنية تُسمى "مُقدِّم الخط المستقيم" (Straight-Through Estimator). هذه الطريقة تسمح للنموذج بالتعلم بفعالية، رغم التقييد في الأوزان. النتيجة مذهلة: نموذج بحجم 3 مليار معلمة (BitNet b1.58) أداءه مطابق لنموذج LLaMA-3B، لكنه أسرع بنسبة 2.71 مرة وأقل استهلاكًا للذاكرة بنسبة 3.55 مرة. هذا ليس مجرد تحسين، بل تحوّل جذري في طبيعة الحوسبة. لكن ماذا عن النماذج القديمة؟ فريق آخر، بقيادة شو وآخرون (2024)، طوّر إطار عمل يُسمى OneBit، يحوّل النماذج الكاملة الدقة إلى نماذج 1 بت دون فقدان كبير في الأداء. من خلال الحفاظ على الهيكل العام للأوزان وتحسين نقطة البداية عبر تحليل المصفوفات، نجحوا في الحفاظ على أكثر من 81% من أداء LLaMA، مع تقليل الحجم بنسبة 16 مرة — ما يجعل النماذج قابلة للتشغيل على الأجهزة الشخصية. الأساس النظري لهذا التحول وُضع في دراسة داليري وآخرون (2024)، التي أثبتت أن الشبكات 1 بت قادرة على تقريب أي دالة معقدة (مبدأ التقدير العالمي)، وأنها قابلة للتدريب بشكل مضمون مع التوسع. هذا يعني أن النموذج ليس مجرد "خدعة"، بل مسار مدعوم رياضيًا. النتائج متعددة: تحرير الذكاء الاصطناعي من السحابة إلى الحافة (الجهاز الشخصي)، مما يضمن خصوصية أفضل، استجابة أسرع، وتشغيل بدون اتصال. كما يفتح الباب لتصميم رقائق مخصصة (ASICs) أرخص وأكثر كفاءة من الرقائق الحالية. الأهم من ذلك: تقليل البصمة الكربونية للذكاء الاصطناعي، الذي يُعد من أكبر المستهلكين للطاقة. هذه ليست مجرد تحسين تقني، بل خطوة نحو مستقبل مستدام وشامل. العصر الذي كان يُبنى على القوة البدنية للنماذج ينتهي. نحن ندخل عصر الكفاءة الحسابية، حيث الذكاء لا يُقاس بحجم النموذج، بل بذكائه في استغلال ما هو بسيط.
