HyperAIHyperAI

Command Palette

Search for a command to run...

MAmmoTH-VL: استخلاص التفكير متعدد الوسائط من خلال ضبط التعليم بالتعليمات على نطاق واسع

Jarvis Guo Tuney Zheng Yuelin Bai Bo Li Yubo Wang King Zhu Yizhi Li Graham Neubig Wenhu Chen Xiang Yue

الملخص

أظهرت النماذج اللغوية الكبيرة متعددة الوسائط المفتوحة المصدر إمكانات كبيرة في مجموعة واسعة من المهام متعددة الوسائط. ومع ذلك، تظل قدراتها الاستدلالية محدودة بسبب قيود مجموعات البيانات المستخدمة في التدريب الموجه بالتعليمات، التي تم استخلاصها بشكل رئيسي من مجموعات بيانات أكاديمية مثل VQA وAI2D وChartQA. وتستهدف هذه المجموعات مهامًا بسيطة، وتقدم فقط إجابات على مستوى العبارات دون أي تبريرات وسطية. ولحل هذه التحديات، نقدّم طريقة قابلة للتوسع وفعالة من حيث التكلفة لبناء مجموعة بيانات واسعة النطاق للتدريب الموجه بالتعليمات متعددة الوسائط، تتميز بوجود تبريرات وسطية غنية مصممة لاستثارة التفكير التسلسلي (Chain-of-Thought). وباستخدام نماذج مفتوحة المصدر فقط، نُنشئ مجموعة بيانات تحتوي على 12 مليون زوج من التعليمات والإجابة، لتغطية مهام متنوعة وشاملة للتفكير، مع تبريرات مفصلة ودقيقة. تُظهر التجارب أن تدريب النماذج اللغوية الكبيرة متعددة الوسائط على هذه المجموعة يُحسّن بشكل كبير من قدراتها الاستدلالية، ويحقق أداءً متقدمًا على مستوى الحد الأقصى في معايير مثل MathVerse (+8.1%) وMMMU-Pro (+7%) وMuirBench (+13.3%). بالإضافة إلى ذلك، تُظهر النموذج تحسينات ملحوظة تصل إلى 4% على المعايير التي لا تعتمد على التفكير الاستدلالي. وتُبرز الدراسات التحليلية (Ablation studies) أيضًا أهمية العناصر الأساسية، مثل إعادة الصياغة والتصفية الذاتية، في عملية بناء المجموعة.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
MAmmoTH-VL: استخلاص التفكير متعدد الوسائط من خلال ضبط التعليم بالتعليمات على نطاق واسع | مستندات | HyperAI