HyperAIHyperAI

Command Palette

Search for a command to run...

منذ 2 أيام

QSVR: تقريب منخفض الرتبة فعّال لضغط أوزان الاستعلام-القيمة-الرقم المُسجَّل الموحَّد في نماذج الرؤية واللغة من الدقة المنخفضة

Yutong Wang Haiyu Wang Sai Qian Zhang

QSVR: تقريب منخفض الرتبة فعّال لضغط أوزان الاستعلام-القيمة-الرقم المُسجَّل الموحَّد في نماذج الرؤية واللغة من الدقة المنخفضة

الملخص

تُعد نماذج الرؤية واللغة (VLMs) عنصراً أساسياً في مهام مثل توليد العناوين التوضيحية للصور والإجابة على الأسئلة المرئية، لكن تكاليفها الحسابية العالية، الناتجة عن الحجم الكبير للذاكرة المطلوبة ووقت المعالجة، تحد من قابليتها للتوسع وتطبيقاتها في الوقت الفعلي. في هذا العمل، نقترح استغلال التحليل القيمي الفردي (SVD) على مصفوفات الأوزان المشتركة للطلب (Q) والمسار (K) والقيمة (V) لتقليل حجم ذاكرة التخزين المؤقت للقيم (KV cache) والعبء الحسابي. إلى جانب ذلك، نُقدّم استراتيجية فعّالة لتحديد الرتبة (rank allocation) تُعدّل رتبة SVD ديناميكياً بناءً على تأثيرها على دقة نموذج VLM، مما يحقق خفضاً ملحوظاً في استهلاك الذاكرة والتكاليف الحسابية. وأخيراً، نوسع هذا النهج من خلال تطبيق التكميم (quantization) على كل من أوزان نموذج VLM والأنشطة (activations)، مما يؤدي إلى نموذج VLM يمتاز بكفاءة عالية. ويتفوق هذا الأسلوب على الطرق السابقة التي تعتمد فقط على التكميم أو SVD، حيث يحقق تحسناً في الدقة بنسبة تزيد عن 10٪ مع استهلاك أقل للتكلفة المادية للعتاد، ما يجعله أكثر ملاءمة للنشر الفعلي في الوقت الفعلي على الأجهزة ذات الموارد المحدودة.

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
QSVR: تقريب منخفض الرتبة فعّال لضغط أوزان الاستعلام-القيمة-الرقم المُسجَّل الموحَّد في نماذج الرؤية واللغة من الدقة المنخفضة | الأوراق البحثية | HyperAI