HyperAIHyperAI

Command Palette

Search for a command to run...

افتح عينيك: تكيّف خليط الدقة لنموذج اللغة الكبيرة متعدد الوسائط

Gen Luo Yiyi Zhou Yuxin Zhang Xiawu Zheng Xiaoshuai Sun Rongrong Ji

الملخص

على الرغم من التقدم الملموس، تظل النماذج الكبيرة متعددة الوسائط للغة (MLLMs) أقل كفاءة في التعرف الدقيق على الصور مقارنة بالمهام الأخرى. على عكس الدراسات السابقة، ندرس هذه المشكلة من منظور دقة الصورة، ونُظهر أن مزيجًا من ميزات بصرية من دقة منخفضة وعالية يمكن أن يُخفف بشكل فعّال من هذه النقص. بناءً على هذه الملاحظة، نقترح طريقة جديدة وفعّالة لـ MLLMs تُسمى "مزيج التكيف حسب الدقة" (MRA). وتحديدًا، تستخدم MRA مسارين بصريين للصور ذات دقة مختلفة، حيث يتم تضمين المعلومات البصرية عالية الدقة في المسار منخفض الدقة من خلال مُعالِجات مُختلطة حسب الدقة (MR-Adapters) المبتكرة. ويقلل هذا التصميم أيضًا بشكل كبير من طول التسلسل المُدخل لـ MLLMs. لاختبار فعالية MRA، قمنا بتطبيقها على نموذج MLLM حديث يُسمى LLaVA، وسُمّي النموذج الجديد LLaVA-HR. أجرينا تجارب واسعة على 11 مهمة في مجال اللغة والرؤية (VL)، وأظهرت النتائج أن LLaVA-HR يتفوّق على النماذج الحالية لـ MLLMs في 8 مهام، مثل تحسّن بنسبة 9.4% في مهمة TextVQA. والأهم من ذلك، تظل عملية التدريب والاستنتاج لـ LLaVA-HR فعّالة جدًا باستخدام MRA، حيث تبلغ مدة التدريب 20 ساعة، وسرعة الاستنتاج 3 أضعاف مقارنة بـ LLaVA-1.5. تم إتاحة الشيفرة المصدرية على: https://github.com/luogen1996/LLaVA-HR.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp