الملخص

أظهرت النماذج اللغوية الكبيرة متعددة الوسائط المفتوحة المصدر إمكانات كبيرة في مجموعة واسعة من المهام متعددة الوسائط. ومع ذلك، تظل قدراتها الاستدلالية محدودة بسبب قيود مجموعات البيانات المستخدمة في التدريب الموجه بالتعليمات، التي تم استخلاصها بشكل رئيسي من مجموعات بيانات أكاديمية مثل VQA وAI2D وChartQA. وتستهدف هذه المجموعات مهامًا بسيطة، وتقدم فقط إجابات على مستوى العبارات دون أي تبريرات وسطية. ولحل هذه التحديات، نقدّم طريقة قابلة للتوسع وفعالة من حيث التكلفة لبناء مجموعة بيانات واسعة النطاق للتدريب الموجه بالتعليمات متعددة الوسائط، تتميز بوجود تبريرات وسطية غنية مصممة لاستثارة التفكير التسلسلي (Chain-of-Thought). وباستخدام نماذج مفتوحة المصدر فقط، نُنشئ مجموعة بيانات تحتوي على 12 مليون زوج من التعليمات والإجابة، لتغطية مهام متنوعة وشاملة للتفكير، مع تبريرات مفصلة ودقيقة. تُظهر التجارب أن تدريب النماذج اللغوية الكبيرة متعددة الوسائط على هذه المجموعة يُحسّن بشكل كبير من قدراتها الاستدلالية، ويحقق أداءً متقدمًا على مستوى الحد الأقصى في معايير مثل MathVerse (+8.1%) وMMMU-Pro (+7%) وMuirBench (+13.3%). بالإضافة إلى ذلك، تُظهر النموذج تحسينات ملحوظة تصل إلى 4% على المعايير التي لا تعتمد على التفكير الاستدلالي. وتُبرز الدراسات التحليلية (Ablation studies) أيضًا أهمية العناصر الأساسية، مثل إعادة الصياغة والتصفية الذاتية، في عملية بناء المجموعة.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Command Palette

MAmmoTH-VL: استخلاص التفكير متعدد الوسائط من خلال ضبط التعليم بالتعليمات على نطاق واسع

Jarvis Guo Tuney Zheng Yuelin Bai Bo Li Yubo Wang King Zhu Yizhi Li Graham Neubig Wenhu Chen Xiang Yue

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

MAmmoTH-VL: استخلاص التفكير متعدد الوسائط من خلال ضبط التعليم بالتعليمات على نطاق واسع

Jarvis Guo Tuney Zheng Yuelin Bai Bo Li Yubo Wang King Zhu Yizhi Li Graham Neubig Wenhu Chen Xiang Yue

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

MAmmoTH-VL: استخلاص التفكير متعدد الوسائط من خلال ضبط التعليم بالتعليمات على نطاق واسع

Jarvis Guo Tuney Zheng Yuelin Bai Bo Li Yubo Wang King Zhu Yizhi Li Graham Neubig Wenhu Chen Xiang Yue

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters