Command Palette
Search for a command to run...
إدخال الاستدلال الاتجاهي لتحسين الملاءمة النهائية لـ MLLMs
Chao Huang Zeliang Zhang Jiang Liu Ximeng Sun Jialian Wu Xiaodong Yu Ze Wang Chenliang Xu Emad Barsoum Zicheng Liu
الملخص
تتقدم النماذج الكبيرة لغة متعددة الوسائط (MLLMs) بسرعة، إلا أن قدرتها على الاستدلال تظل غالبًا متأخرة مقارنةً بقدرات النماذج النصية القوية الوحيدة. تعتمد الطرق الحالية لسد هذه الفجوة على التحسين المراقب باستخدام بيانات استدلال متعددة الوسائط على نطاق واسع، أو التعلم المعزز، وهما كلاهما مكثفي الموارد. وتشكل طريقة دمج النماذج (model merging) بديلاً واعدًا، حيث تُجرى عملية تداخل في البارامترات بين النماذج المُحسَّنة للاستدلال (LLMs) ونماذج متعددة الوسائط. ولكن تحليلنا يُظهر أن دمج النماذج المبسط لا يُعد دائمًا "وجبة مجانية": تتفاوت فعاليته بشكل كبير بين عائلات النماذج، حيث تُستفيد بعضها (مثل LLaVA وIdefics)، بينما تُعاني أخرى (مثل Qwen) من تدهور في الأداء. ولحل هذه المشكلة، نقترح منهجية "إدخال الاستدلال الاتجاهي للتحسين التدريجي" (Directional Reasoning Injection for Fine-Tuning - DRIFT) لـ MLLMs، وهي طريقة خفيفة تُحول معرفة الاستدلال في فضاء المُشَتَّتات (gradient space) دون إثارة اضطراب في التوافق متعدد الوسائط. تُحسب DRIFT مُقدِّمًا استدلاليًا مسبقًا كفروق في فضاء البارامترات بين النسخة المُحسَّنة للاستدلال والنسخة متعددة الوسائط، ثم تُستخدم هذه المُقدِّمة لتعديل المُشَتَّتات أثناء التحسين التدريجي متعدد الوسائط. تُبقي هذه الطريقة على بساطة خطوط أنابيب التحسين المراقب القياسية، مع تمكين نقل فعّال لمهارة الاستدلال. وتوصل تجارب واسعة النطاق على معايير استدلال متعددة الوسائط، بما في ذلك MathVista وMathVerse، إلى أن DRIFT تُحسِّن باستمرار أداء الاستدلال مقارنةً بالدمج المبسط والتحسين المراقب، وتحافظ على أداء يُوازي أو يفوق الطرق المكلفة تدريبيًا بجزء ضئيل من التكلفة.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.