QSVR: تقريب منخفض الرتبة فعّال لضغط أوزان الاستعلام-القيمة-الرقم المُسجَّل الموحَّد في نماذج الرؤية واللغة من الدقة المنخفضة
Yutong Wang Haiyu Wang Sai Qian Zhang

الملخص
تُعد نماذج الرؤية واللغة (VLMs) عنصراً أساسياً في مهام مثل توليد العناوين التوضيحية للصور والإجابة على الأسئلة المرئية، لكن تكاليفها الحسابية العالية، الناتجة عن الحجم الكبير للذاكرة المطلوبة ووقت المعالجة، تحد من قابليتها للتوسع وتطبيقاتها في الوقت الفعلي. في هذا العمل، نقترح استغلال التحليل القيمي الفردي (SVD) على مصفوفات الأوزان المشتركة للطلب (Q) والمسار (K) والقيمة (V) لتقليل حجم ذاكرة التخزين المؤقت للقيم (KV cache) والعبء الحسابي. إلى جانب ذلك، نُقدّم استراتيجية فعّالة لتحديد الرتبة (rank allocation) تُعدّل رتبة SVD ديناميكياً بناءً على تأثيرها على دقة نموذج VLM، مما يحقق خفضاً ملحوظاً في استهلاك الذاكرة والتكاليف الحسابية. وأخيراً، نوسع هذا النهج من خلال تطبيق التكميم (quantization) على كل من أوزان نموذج VLM والأنشطة (activations)، مما يؤدي إلى نموذج VLM يمتاز بكفاءة عالية. ويتفوق هذا الأسلوب على الطرق السابقة التي تعتمد فقط على التكميم أو SVD، حيث يحقق تحسناً في الدقة بنسبة تزيد عن 10٪ مع استهلاك أقل للتكلفة المادية للعتاد، ما يجعله أكثر ملاءمة للنشر الفعلي في الوقت الفعلي على الأجهزة ذات الموارد المحدودة.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.