دليل مفصل لطرق كمّية النموذج في النماذج الكبيرة للغة الكمّية (Quantisation) هي عملية تقليل دقة الأعداد المستخدمة في النموذج، مثل تخزين الأوزان بقيم صحيحة بـ 8 بت بدلًا من القيم العائمة بـ 16 أو 32 بت. هذه التقنية تُقلل حجم النموذج، وتجعله أسرع وأكثر كفاءة في التشغيل، مع فقدان ضئيل جدًا في الدقة. وتصبح هذه المهمة بالغة الأهمية في النماذج الكبيرة للغة نظرًا لحجمها الكبير واحتياجاتها الهائلة من الموارد硬件. لتفهم الفكرة، انظر إلى المثال التالي: مخطط توضيحي يُظهر كيف تعمل الكمية، مُعدّ بأسلوب Excalidraw من تأليفي. مع مرور الوقت، طوّرت المجتمعات البحثية استراتيجيات وألgorithms متعددة، تشمل منهجيات أثناء التدريب مثل التدريب المُدرك للكمّية (Quantisation Aware Training - QAT)، ومنهجيات ما بعد التدريب مثل الكمية بعد التدريب (Post-Training Quantisation - PTQ). لتسهيل فهم هذا الطيف الواسع من الأساليب، إليك تصنيفًا منظمًا يُظهر المبادئ الأساسية، من الفئات العامة (QAT و PTQ) إلى الخوارزميات والتحديثات المحددة التي تُبنى عليها: الكمّية بعد التدريب (PTQ) الكمية الثابتة (Static Quantisation) الكمية الديناميكية (Dynamic Quantisation) الكمية المُحسّنة حسب التوزيع (Histogram-based Quantisation) الكمية المعتمدة على التدرج (AdaQuant) الكمية المُحددة حسب التوزيع (Per-channel Quantisation) الكمّية أثناء التدريب (QAT) التدريب المُدرك للكمّية (QAT مع تقريب التدرج) التدريب التدريجي (Progressive Quantisation) الكمية المُحسّنة باستخدام التعلم العميق (Deep Quantisation) الكمية المُدعومة بـ Feedback (Feedback-aware Quantisation) كل أسلوب يُقدّم توازنًا مختلفًا بين الدقة، السرعة، والكفاءة، ويُستخدم حسب السياق: مثل التصنيف، التنبؤ، أو التكامل في الأجهزة المحدودة الموارد. الكمّية ليست مجرد تقنية تقنية، بل تمثل حجر الأساس في تمكين النماذج الكبيرة من العمل على الأجهزة المحمولة، والأنظمة الموزعة، والتطبيقات الزمن الحقيقي. وباختيار الأسلوب المناسب، يمكن تحقيق أداء ممتاز دون الحاجة إلى موارد هائلة. الإلمام بهذه الطرق يُعدّ ضروريًا لأي مهندس أو باحث يعمل في مجال الذكاء الاصطناعي، خصوصًا مع التوجه العالمي نحو نماذج أكثر كفاءة وقابلية للنشر.
الكمّية (Quantisation) هي تقنية تُستخدم لتقليل دقة الأرقام المستخدمة في نماذج الذكاء الاصطناعي، مثل النماذج اللغوية الكبيرة (LLMs)، حيث يتم تخزين المعاملات (الوزن) باستخدام أعداد صحيحة بـ 8 بت بدلًا من الأعداد العائمة ذات الدقة العالية (16 أو 32 بت). هذه الخطوة تُقلل من حجم النموذج، وتحسّن سرعته، وتُقلل من استهلاك الطاقة والذاكرة، مع الحفاظ على دقة معقولة في الأداء. في ظل حجم النماذج الكبيرة التي قد تصل إلى مئات المليارات من المعاملات، تصبح الكمية أداة حيوية لتمكين تشغيل هذه النماذج على أجهزة ذات موارد محدودة، مثل الهواتف أو أجهزة الحوسبة المحمولة. تُصنف أساليب الكمية إلى فئتين رئيسيتين: الكمية بعد التدريب (Post-Training Quantisation - PTQ) والكمية أثناء التدريب (Quantisation Aware Training - QAT). تختلف هاتان الفئتان من حيث التوقيت، والتعقيد، والنتائج. تُعدّ الكمية بعد التدريب (PTQ) الأسلوب الأكثر شيوعًا لسهولة التطبيق. حيث يتم تطبيقها على نموذج جاهز بعد انتهاء عملية التدريب، دون الحاجة إلى إعادة تدريبه. تعتمد هذه الطريقة على تحليل توزيع القيم في المعاملات، ثم تحويلها إلى نطاقات من الأعداد الصحيحة ذات دقة منخفضة. تُستخدم تقنيات مثل التوزيع الثابت (Static Quantisation) أو التوزيع الديناميكي (Dynamic Quantisation) لتحسين الدقة. رغم سهولة تنفيذها، قد تتسبب بعض نماذج LLMs في فقدان دقة ملحوظ في المهام المعقدة، خصوصًا عند تطبيقها على نماذج كبيرة جدًا. في المقابل، تُعدّ الكمية أثناء التدريب (QAT) أكثر دقة، لكنها تتطلب موارد إضافية. في هذه الطريقة، يُدمج تأثير الكمية مباشرة في عملية التدريب، بحيث يتعلم النموذج كيفية التكيف مع الدقة المنخفضة من البداية. يتم ذلك عبر محاكاة تأثير الكمية داخل الشبكة العصبية أثناء التدريب، مما يسمح للنموذج بتعويض الخسائر الناتجة عن تقليل الدقة. النتائج غالبًا ما تكون أفضل من PTQ، خصوصًا في المهام التي تتطلب دقة عالية، لكنها تتطلب وقتًا أطول وموارد حاسوبية أكبر. بالإضافة إلى هذه الفئات، ظهرت تقنيات متطورة تعتمد على مبادئ مختلطة أو مُحسّنة. من أبرزها: - Quantisation with Learned Scaling (LSQ): حيث يتم تعلم عوامل التحجيم (scaling factors) أثناء التدريب، مما يُحسّن التوازن بين الدقة والكفاءة. - Mixed Precision Quantisation: تُطبّق دقة مختلفة على أجزاء مختلفة من النموذج، حيث تُستخدم دقة أعلى في الأجزاء الحساسة، وأقل في الأخرى، مما يُوازن بين الأداء والكفاءة. - Block-wise Quantisation: تُقسّم المعاملات إلى كتل صغيرة، ثم تُكمّى كل كتلة بشكل منفصل، مما يُقلل من فقدان المعلومات مقارنة بالكمية العالمية. من المهم ملاحظة أن اختيار الأسلوب المناسب يعتمد على متطلبات التطبيق: هل يُفضل الأداء السريع والكفاءة (مثل الأجهزة المحمولة) أم الحفاظ على أقصى دقة ممكنة (مثل التطبيقات الحساسة في المجال الطبي أو المالي)؟ في النهاية، تُعدّ الكمية أداة حاسمة لجعل النماذج اللغوية الكبيرة قابلة للتطبيق في الواقع، وتُسهم في تمكين التوسع في استخدام الذكاء الاصطناعي على نطاق واسع، من خلال تقليل الحاجة إلى موارد حاسوبية باهظة. مع تطور الخوارزميات، تستمر هذه التقنية في التحسن، مما يُوسع من إمكانيات استخدام النماذج الكبيرة في بيئات متنوعة ومتعددة.
