XQuant: تجاوز جدار الذاكرة للتخمين بالنموذج اللغوي الكبير من خلال إعادة إنتاج ذاكرة التخزين المؤقت للقيم المفتاحية والقيم

على الرغم من أن استنتاج النماذج اللغوية الكبيرة (LLM) قد أصبح عبئًا حاسمًا لعدة تطبيقات تالية، فإن استنتاج هذه النماذج بكفاءة يُعد تحديًا كبيرًا نظرًا للحاجة إلى مساحة ذاكرة كبيرة وعرض نطاق تردّد عالٍ. وفي الوقت نفسه، تفوقت قدرات الحوسبة على كل من سعة الذاكرة وعرض نطاق التردد على مدار العقود القليلة الماضية، وهي ظاهرة ما زالت واضحة في أجهزة وحدة معالجة الرسوميات الحديثة، ما يُفاقم من صعوبة استنتاج النماذج اللغوية الكبيرة. ونتيجة لذلك، بدأت تظهر خوارزميات جديدة تُقدّم تنازلًا في الحوسبة المطلوبة مقابل تقليل العمليات المتعلقة بالذاكرة. وفي هذا السياق، نقدّم XQuant، الذي يستفيد من هذه الاتجاه، ويُحقّق تخفيضًا طرديًا في استهلاك الذاكرة بنسبة تصل إلى مرتبة واحدة من خلال التكميم ببتات قليلة، مع تحقيق فوائد كبيرة في الدقة مقارنة بأساليب التكميم المتطورة لذاكرة التخزين المؤقت للقيم (KV cache). نحقق ذلك من خلال تكميم وتخزين تنشيطات المدخلات للطبقة (X)، بدلاً من استخدام التخزين المؤقت القياسي للقيم (KV)، ثم إعادة إنتاج القيم (Keys) والنتائج (Values) بشكل ديناميكي أثناء الاستنتاج. وهذا يُنتج وفورات فورية في الذاكرة بنسبة تصل إلى 2 مرة مقارنة بالتخزين المؤقت القياسي. وباستخدام XQuant، نحقّق وفورات في الذاكرة تصل إلى حوالي 7.7 مرة مع انخفاض في معامل التباس (perplexity) أقل من 0.1 مقارنة بالأساس المبني على FP16. علاوة على ذلك، يستفيد نهجنا من حقيقة أن قيم X تكون متشابهة عبر الطبقات المختلفة. وبناءً على هذه الملاحظة، نقدّم XQuant-CL، الذي يستغل التشابه بين الطبقات في تمثيلات X لتحقيق ضغط متطرف. وبتحليل مختلف النماذج، يحقق XQuant-CL وفورات في الذاكرة تصل إلى 10 مرات مقارنة بالأساس FP16 مع انخفاض ضئيل في معامل التباس لا يتجاوز 0.01، ويوفر حتى 12.5 مرة في استهلاك الذاكرة مع انخفاض في التباس لا يتجاوز 0.1. وباستغلال التطور السريع في قدرات الحوسبة المتوفرة في المنصات المادية، يُعَد XQuant وسيلة فعّالة لتجاوز عقدة الذاكرة، ويتفوّق على أحدث أساليب تكميم ذاكرة التخزين المؤقت KV، ويحقق دقة قريبة جدًا من مستوى FP16 عبر مجموعة واسعة من النماذج.