HyperAIHyperAI

Command Palette

Search for a command to run...

منذ 4 أشهر

MAmmoTH-VL: استخلاص التفكير متعدد الوسائط من خلال ضبط التعليم بالتعليمات على نطاق واسع

Jarvis Guo Tuney Zheng Yuelin Bai Bo Li Yubo Wang King Zhu Yizhi Li Graham Neubig Wenhu Chen Xiang Yue

MAmmoTH-VL: استخلاص التفكير متعدد الوسائط من خلال ضبط التعليم بالتعليمات على نطاق واسع

الملخص

أظهرت النماذج اللغوية الكبيرة متعددة الوسائط المفتوحة المصدر إمكانات كبيرة في مجموعة واسعة من المهام متعددة الوسائط. ومع ذلك، تظل قدراتها الاستدلالية محدودة بسبب قيود مجموعات البيانات المستخدمة في التدريب الموجه بالتعليمات، التي تم استخلاصها بشكل رئيسي من مجموعات بيانات أكاديمية مثل VQA وAI2D وChartQA. وتستهدف هذه المجموعات مهامًا بسيطة، وتقدم فقط إجابات على مستوى العبارات دون أي تبريرات وسطية. ولحل هذه التحديات، نقدّم طريقة قابلة للتوسع وفعالة من حيث التكلفة لبناء مجموعة بيانات واسعة النطاق للتدريب الموجه بالتعليمات متعددة الوسائط، تتميز بوجود تبريرات وسطية غنية مصممة لاستثارة التفكير التسلسلي (Chain-of-Thought). وباستخدام نماذج مفتوحة المصدر فقط، نُنشئ مجموعة بيانات تحتوي على 12 مليون زوج من التعليمات والإجابة، لتغطية مهام متنوعة وشاملة للتفكير، مع تبريرات مفصلة ودقيقة. تُظهر التجارب أن تدريب النماذج اللغوية الكبيرة متعددة الوسائط على هذه المجموعة يُحسّن بشكل كبير من قدراتها الاستدلالية، ويحقق أداءً متقدمًا على مستوى الحد الأقصى في معايير مثل MathVerse (+8.1%) وMMMU-Pro (+7%) وMuirBench (+13.3%). بالإضافة إلى ذلك، تُظهر النموذج تحسينات ملحوظة تصل إلى 4% على المعايير التي لا تعتمد على التفكير الاستدلالي. وتُبرز الدراسات التحليلية (Ablation studies) أيضًا أهمية العناصر الأساسية، مثل إعادة الصياغة والتصفية الذاتية، في عملية بناء المجموعة.

مستودعات الكود

mammoth-vl/mammoth-vl
pytorch
مذكور في GitHub

المعايير القياسية

معيار قياسيالمنهجيةالمقاييس
visual-question-answering-on-mm-vetMAmmoTH-VL-8B (SI)
GPT-4 score: 60.6
visual-question-answering-on-mm-vetMAmmoTH-VL-8B
GPT-4 score: 62.3

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
MAmmoTH-VL: استخلاص التفكير متعدد الوسائط من خلال ضبط التعليم بالتعليمات على نطاق واسع | الأوراق البحثية | HyperAI