منذ 12 أيام

إدخال الاستدلال الاتجاهي لتحسين الملاءمة النهائية لـ MLLMs

Chao Huang Zeliang Zhang Jiang Liu Ximeng Sun Jialian Wu Xiaodong Yu Ze Wang Chenliang Xu Emad Barsoum Zicheng Liu

الملخص

تتقدم النماذج الكبيرة لغة متعددة الوسائط (MLLMs) بسرعة، إلا أن قدرتها على الاستدلال تظل غالبًا متأخرة مقارنةً بقدرات النماذج النصية القوية الوحيدة. تعتمد الطرق الحالية لسد هذه الفجوة على التحسين المراقب باستخدام بيانات استدلال متعددة الوسائط على نطاق واسع، أو التعلم المعزز، وهما كلاهما مكثفي الموارد. وتشكل طريقة دمج النماذج (model merging) بديلاً واعدًا، حيث تُجرى عملية تداخل في البارامترات بين النماذج المُحسَّنة للاستدلال (LLMs) ونماذج متعددة الوسائط. ولكن تحليلنا يُظهر أن دمج النماذج المبسط لا يُعد دائمًا "وجبة مجانية": تتفاوت فعاليته بشكل كبير بين عائلات النماذج، حيث تُستفيد بعضها (مثل LLaVA وIdefics)، بينما تُعاني أخرى (مثل Qwen) من تدهور في الأداء. ولحل هذه المشكلة، نقترح منهجية "إدخال الاستدلال الاتجاهي للتحسين التدريجي" (Directional Reasoning Injection for Fine-Tuning - DRIFT) لـ MLLMs، وهي طريقة خفيفة تُحول معرفة الاستدلال في فضاء المُشَتَّتات (gradient space) دون إثارة اضطراب في التوافق متعدد الوسائط. تُحسب DRIFT مُقدِّمًا استدلاليًا مسبقًا كفروق في فضاء البارامترات بين النسخة المُحسَّنة للاستدلال والنسخة متعددة الوسائط، ثم تُستخدم هذه المُقدِّمة لتعديل المُشَتَّتات أثناء التحسين التدريجي متعدد الوسائط. تُبقي هذه الطريقة على بساطة خطوط أنابيب التحسين المراقب القياسية، مع تمكين نقل فعّال لمهارة الاستدلال. وتوصل تجارب واسعة النطاق على معايير استدلال متعددة الوسائط، بما في ذلك MathVista وMathVerse، إلى أن DRIFT تُحسِّن باستمرار أداء الاستدلال مقارنةً بالدمج المبسط والتحسين المراقب، وتحافظ على أداء يُوازي أو يفوق الطرق المكلفة تدريبيًا بجزء ضئيل من التكلفة.

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي

وحدات معالجة رسومات جاهزة

أفضل الأسعار

ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

Command Palette

إدخال الاستدلال الاتجاهي لتحسين الملاءمة النهائية لـ MLLMs

Chao Huang Zeliang Zhang Jiang Liu Ximeng Sun Jialian Wu Xiaodong Yu Ze Wang Chenliang Xu Emad Barsoum Zicheng Liu

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

Hyper Newsletters