كمية النموذج
التكميم هو تقنية تستخدم لتقليل حجم ومساحة ذاكرة نماذج الشبكات العصبية. يمكن أن يؤدي تحديد كمية النموذج إلى تقليل حجم الذاكرة والمتطلبات الحسابية لنماذج الشبكات العصبية العميقة. كمية الوزن هي تقنية كمية شائعة تتضمن تحويل الأوزان وتنشيطات الشبكة العصبية من أرقام فاصلة عائمة عالية الدقة إلى تنسيق أقل دقة مثل الأعداد الصحيحة 16 بت أو 8 بت. تحويل أوزان النموذج من أنواع البيانات القياسية ذات الفاصلة العائمة (على سبيل المثال، الأعداد العائمة ذات 32 بت) إلى أنواع البيانات ذات الدقة المنخفضة (على سبيل المثال، الأعداد الصحيحة ذات 8 بت)، وبالتالي تقليل حجم النموذج ومتطلبات الذاكرة وزيادة سرعة الاستدلال (عن طريق تقليل التعقيد الحسابي). يمكن أن تجعل كمية النموذج النماذج الكبيرة (مثل LLM) أسهل في النشر على الأجهزة الطرفية ذات موارد الحوسبة والذاكرة المحدودة.
تمثيل النقطة العائمة:
من بين أنواع البيانات المختلفة، تُستخدم الأرقام العائمة بشكل أساسي في التعلم العميق لأنها يمكن أن تمثل قيمًا مختلفة بدقة عالية. عادةً، تتم كتابة الأرقام ذات النقطة العائمة باستخدام ن بتات لتخزين القيم. هذا ن تنقسم البتات أيضًا إلى ثلاثة مكونات مختلفة:
- رمز:يشير بت الإشارة إلى ما إذا كان الرقم موجبًا أم سالبًا. يستخدم بت واحد، حيث يمثل 0 رقمًا موجبًا ويمثل 1 رقمًا سالبًا.
- فِهرِس:الأس هو مجموعة من البتات التي تمثل قوة القاعدة (عادة 2 في التمثيل الثنائي). يمكن أن يكون الأس موجبًا أو سالبًا أيضًا، مما يسمح للأرقام بتمثيل قيم كبيرة جدًا أو صغيرة جدًا.
- عدد كبير/عشري:يتم استخدام البتات المتبقية لتخزين القيمة المعنوية، والمعروفة أيضًا باسم الجزء العشري. يمثل هذا الأرقام المهمة لرقم ما. تعتمد دقة الرقم إلى حد كبير على طول أرقامه المهمة.
بعض أنواع البيانات الأكثر استخدامًا في التعلم العميق هي float32 (FP32) و float16 (FP16):

غالبًا ما يُشار إلى FP32 باسم "الدقة الكاملة" (4 بايت)، بينما يُشار إلى FP16 باسم "نصف الدقة" (2 بايت). يؤدي نوع البيانات INT8 أداءً أفضل ويستخدم بايتًا واحدًا لتخزين الوزن، والذي يتكون من تمثيل مكون من 8 بتات قادر على تخزين 2⁸ = 256 قيمة مختلفة.
مراجع
【1】https://www.hopsworks.ai/dictionary/model-quantization
【2】https://medium.com/@sachinsoni600517/introduction-to-model-quantization-4effc7a17000