الملخص

نقدّم نموذج MM1.5، وهو عائلة جديدة من نماذج اللغة الكبيرة متعددة الوسائط (MLLMs)، مصممة لتعزيز القدرات في فهم الصور الغنية بالنصوص، وتمييز الصور المرجعيّة والتثبيت البصري، والاستدلال على الصور المتعددة. مبنيةً على معمارية MM1، تُطبّق نماذج MM1.5 نهجًا متمحورًا حول البيانات في تدريب النموذج، واستكشافًا منهجيًا لتأثير مزيج متنوع من البيانات على مدار دورة تدريب النموذج بالكامل. ويشمل ذلك بيانات OCR عالية الجودة ونصوص مُصاغة اصطناعيًا لعملية التدريب المُستمر، فضلاً عن مزيج مُحسَّن من بيانات التدريب المُوجَّه بصريًا لمرحلة التدريب المُحدَّد بتعليمات. تتراوح نماذجنا من 1 بيليون إلى 30 بيليون معلمة، وتشمل كلاً من التوافقيات الكثيفة (Dense) ونماذج مزيج الخبراء (MoE)، وتبين أن تدبيرًا دقيقًا للبيانات واستراتيجيات التدريب يمكن أن تُحقِّق أداءً قويًا حتى في المقياس الصغير (1 بيليون و3 بيليون معلمة). علاوةً على ذلك، نقدّم نسختين مخصصتين: MM1.5-Video، المصممة لفهم الفيديو، وMM1.5-UI، المُعدَّة لفهم واجهات المستخدم المحمولة. من خلال دراسات تجريبية مكثفة وتحليلات تفكيكية (Ablations)، نقدّم رؤى مفصلة حول عمليات التدريب وقرارات التصميم التي شكلت التصميم النهائي، ما يُقدِّم توجيهات قيّمة للبحث المستقبلي في تطوير نماذج MLLM.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Command Palette

MM1.5: الطرق، التحليل، والرؤى الناتجة عن التدريب الدقيق لنماذج لغة متعددة الوسائط

Haotian Zhang Mingfei Gao Zhe Gan Philipp Dufter Nina Wenzel Forrest Huang Dhruti Shah Xianzhi Du Bowen Zhang Yanghao Li13 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

MM1.5: الطرق، التحليل، والرؤى الناتجة عن التدريب الدقيق لنماذج لغة متعددة الوسائط

Haotian Zhang Mingfei Gao Zhe Gan Philipp Dufter Nina Wenzel Forrest Huang Dhruti Shah Xianzhi Du Bowen Zhang Yanghao Li13 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

MM1.5: الطرق، التحليل، والرؤى الناتجة عن التدريب الدقيق لنماذج لغة متعددة الوسائط

Haotian Zhang Mingfei Gao Zhe Gan Philipp Dufter Nina Wenzel Forrest Huang Dhruti Shah Xianzhi Du Bowen Zhang Yanghao Li13 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Haotian Zhang Mingfei Gao Zhe Gan Philipp Dufter Nina Wenzel Forrest Huang Dhruti Shah Xianzhi Du Bowen Zhang Yanghao Li

Haotian Zhang Mingfei Gao Zhe Gan Philipp Dufter Nina Wenzel Forrest Huang Dhruti Shah Xianzhi Du Bowen Zhang Yanghao Li

Haotian Zhang Mingfei Gao Zhe Gan Philipp Dufter Nina Wenzel Forrest Huang Dhruti Shah Xianzhi Du Bowen Zhang Yanghao Li