HyperAIHyperAI
منذ 11 أيام

افتح عينيك: تكيّف خليط الدقة لنموذج اللغة الكبيرة متعدد الوسائط

Gen Luo, Yiyi Zhou, Yuxin Zhang, Xiawu Zheng, Xiaoshuai Sun, Rongrong Ji
افتح عينيك: تكيّف خليط الدقة لنموذج اللغة الكبيرة متعدد الوسائط
الملخص

على الرغم من التقدم الملموس، تظل النماذج الكبيرة متعددة الوسائط للغة (MLLMs) أقل كفاءة في التعرف الدقيق على الصور مقارنة بالمهام الأخرى. على عكس الدراسات السابقة، ندرس هذه المشكلة من منظور دقة الصورة، ونُظهر أن مزيجًا من ميزات بصرية من دقة منخفضة وعالية يمكن أن يُخفف بشكل فعّال من هذه النقص. بناءً على هذه الملاحظة، نقترح طريقة جديدة وفعّالة لـ MLLMs تُسمى "مزيج التكيف حسب الدقة" (MRA). وتحديدًا، تستخدم MRA مسارين بصريين للصور ذات دقة مختلفة، حيث يتم تضمين المعلومات البصرية عالية الدقة في المسار منخفض الدقة من خلال مُعالِجات مُختلطة حسب الدقة (MR-Adapters) المبتكرة. ويقلل هذا التصميم أيضًا بشكل كبير من طول التسلسل المُدخل لـ MLLMs. لاختبار فعالية MRA، قمنا بتطبيقها على نموذج MLLM حديث يُسمى LLaVA، وسُمّي النموذج الجديد LLaVA-HR. أجرينا تجارب واسعة على 11 مهمة في مجال اللغة والرؤية (VL)، وأظهرت النتائج أن LLaVA-HR يتفوّق على النماذج الحالية لـ MLLMs في 8 مهام، مثل تحسّن بنسبة 9.4% في مهمة TextVQA. والأهم من ذلك، تظل عملية التدريب والاستنتاج لـ LLaVA-HR فعّالة جدًا باستخدام MRA، حيث تبلغ مدة التدريب 20 ساعة، وسرعة الاستنتاج 3 أضعاف مقارنة بـ LLaVA-1.5. تم إتاحة الشيفرة المصدرية على: https://github.com/luogen1996/LLaVA-HR.

افتح عينيك: تكيّف خليط الدقة لنموذج اللغة الكبيرة متعدد الوسائط | أحدث الأوراق البحثية | HyperAI