HyperAIHyperAI

Command Palette

Search for a command to run...

XQuant: تجاوز جدار الذاكرة للتخمين بالنموذج اللغوي الكبير من خلال إعادة إنتاج ذاكرة التخزين المؤقت للقيم المفتاحية والقيم

Aditya Tomar Coleman Hooper Minjae Lee Haocheng Xi Rishabh Tiwari Wonjun Kang Luca Manolache Michael W. Mahoney Kurt Keutzer Amir Gholami

الملخص

على الرغم من أن استنتاج النماذج اللغوية الكبيرة (LLM) قد أصبح عبئًا حاسمًا لعدة تطبيقات تالية، فإن استنتاج هذه النماذج بكفاءة يُعد تحديًا كبيرًا نظرًا للحاجة إلى مساحة ذاكرة كبيرة وعرض نطاق تردّد عالٍ. وفي الوقت نفسه، تفوقت قدرات الحوسبة على كل من سعة الذاكرة وعرض نطاق التردد على مدار العقود القليلة الماضية، وهي ظاهرة ما زالت واضحة في أجهزة وحدة معالجة الرسوميات الحديثة، ما يُفاقم من صعوبة استنتاج النماذج اللغوية الكبيرة. ونتيجة لذلك، بدأت تظهر خوارزميات جديدة تُقدّم تنازلًا في الحوسبة المطلوبة مقابل تقليل العمليات المتعلقة بالذاكرة. وفي هذا السياق، نقدّم XQuant، الذي يستفيد من هذه الاتجاه، ويُحقّق تخفيضًا طرديًا في استهلاك الذاكرة بنسبة تصل إلى مرتبة واحدة من خلال التكميم ببتات قليلة، مع تحقيق فوائد كبيرة في الدقة مقارنة بأساليب التكميم المتطورة لذاكرة التخزين المؤقت للقيم (KV cache). نحقق ذلك من خلال تكميم وتخزين تنشيطات المدخلات للطبقة (X)، بدلاً من استخدام التخزين المؤقت القياسي للقيم (KV)، ثم إعادة إنتاج القيم (Keys) والنتائج (Values) بشكل ديناميكي أثناء الاستنتاج. وهذا يُنتج وفورات فورية في الذاكرة بنسبة تصل إلى 2 مرة مقارنة بالتخزين المؤقت القياسي. وباستخدام XQuant، نحقّق وفورات في الذاكرة تصل إلى حوالي 7.7 مرة مع انخفاض في معامل التباس (perplexity) أقل من 0.1 مقارنة بالأساس المبني على FP16. علاوة على ذلك، يستفيد نهجنا من حقيقة أن قيم X تكون متشابهة عبر الطبقات المختلفة. وبناءً على هذه الملاحظة، نقدّم XQuant-CL، الذي يستغل التشابه بين الطبقات في تمثيلات X لتحقيق ضغط متطرف. وبتحليل مختلف النماذج، يحقق XQuant-CL وفورات في الذاكرة تصل إلى 10 مرات مقارنة بالأساس FP16 مع انخفاض ضئيل في معامل التباس لا يتجاوز 0.01، ويوفر حتى 12.5 مرة في استهلاك الذاكرة مع انخفاض في التباس لا يتجاوز 0.1. وباستغلال التطور السريع في قدرات الحوسبة المتوفرة في المنصات المادية، يُعَد XQuant وسيلة فعّالة لتجاوز عقدة الذاكرة، ويتفوّق على أحدث أساليب تكميم ذاكرة التخزين المؤقت KV، ويحقق دقة قريبة جدًا من مستوى FP16 عبر مجموعة واسعة من النماذج.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
XQuant: تجاوز جدار الذاكرة للتخمين بالنموذج اللغوي الكبير من خلال إعادة إنتاج ذاكرة التخزين المؤقت للقيم المفتاحية والقيم | مستندات | HyperAI