Command Palette
Search for a command to run...
MAmmoTH-VL: استخلاص التفكير متعدد الوسائط من خلال ضبط التعليم بالتعليمات على نطاق واسع
Jarvis Guo Tuney Zheng Yuelin Bai Bo Li Yubo Wang King Zhu Yizhi Li Graham Neubig Wenhu Chen Xiang Yue

الملخص
أظهرت النماذج اللغوية الكبيرة متعددة الوسائط المفتوحة المصدر إمكانات كبيرة في مجموعة واسعة من المهام متعددة الوسائط. ومع ذلك، تظل قدراتها الاستدلالية محدودة بسبب قيود مجموعات البيانات المستخدمة في التدريب الموجه بالتعليمات، التي تم استخلاصها بشكل رئيسي من مجموعات بيانات أكاديمية مثل VQA وAI2D وChartQA. وتستهدف هذه المجموعات مهامًا بسيطة، وتقدم فقط إجابات على مستوى العبارات دون أي تبريرات وسطية. ولحل هذه التحديات، نقدّم طريقة قابلة للتوسع وفعالة من حيث التكلفة لبناء مجموعة بيانات واسعة النطاق للتدريب الموجه بالتعليمات متعددة الوسائط، تتميز بوجود تبريرات وسطية غنية مصممة لاستثارة التفكير التسلسلي (Chain-of-Thought). وباستخدام نماذج مفتوحة المصدر فقط، نُنشئ مجموعة بيانات تحتوي على 12 مليون زوج من التعليمات والإجابة، لتغطية مهام متنوعة وشاملة للتفكير، مع تبريرات مفصلة ودقيقة. تُظهر التجارب أن تدريب النماذج اللغوية الكبيرة متعددة الوسائط على هذه المجموعة يُحسّن بشكل كبير من قدراتها الاستدلالية، ويحقق أداءً متقدمًا على مستوى الحد الأقصى في معايير مثل MathVerse (+8.1%) وMMMU-Pro (+7%) وMuirBench (+13.3%). بالإضافة إلى ذلك، تُظهر النموذج تحسينات ملحوظة تصل إلى 4% على المعايير التي لا تعتمد على التفكير الاستدلالي. وتُبرز الدراسات التحليلية (Ablation studies) أيضًا أهمية العناصر الأساسية، مثل إعادة الصياغة والتصفية الذاتية، في عملية بناء المجموعة.
مستودعات الكود
المعايير القياسية
| معيار قياسي | المنهجية | المقاييس |
|---|---|---|
| visual-question-answering-on-mm-vet | MAmmoTH-VL-8B (SI) | GPT-4 score: 60.6 |
| visual-question-answering-on-mm-vet | MAmmoTH-VL-8B | GPT-4 score: 62.3 |
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.