HyperAIHyperAI

Command Palette

Search for a command to run...

MM1.5: الطرق، التحليل، والرؤى الناتجة عن التدريب الدقيق لنماذج لغة متعددة الوسائط

الملخص

نقدّم نموذج MM1.5، وهو عائلة جديدة من نماذج اللغة الكبيرة متعددة الوسائط (MLLMs)، مصممة لتعزيز القدرات في فهم الصور الغنية بالنصوص، وتمييز الصور المرجعيّة والتثبيت البصري، والاستدلال على الصور المتعددة. مبنيةً على معمارية MM1، تُطبّق نماذج MM1.5 نهجًا متمحورًا حول البيانات في تدريب النموذج، واستكشافًا منهجيًا لتأثير مزيج متنوع من البيانات على مدار دورة تدريب النموذج بالكامل. ويشمل ذلك بيانات OCR عالية الجودة ونصوص مُصاغة اصطناعيًا لعملية التدريب المُستمر، فضلاً عن مزيج مُحسَّن من بيانات التدريب المُوجَّه بصريًا لمرحلة التدريب المُحدَّد بتعليمات. تتراوح نماذجنا من 1 بيليون إلى 30 بيليون معلمة، وتشمل كلاً من التوافقيات الكثيفة (Dense) ونماذج مزيج الخبراء (MoE)، وتبين أن تدبيرًا دقيقًا للبيانات واستراتيجيات التدريب يمكن أن تُحقِّق أداءً قويًا حتى في المقياس الصغير (1 بيليون و3 بيليون معلمة). علاوةً على ذلك، نقدّم نسختين مخصصتين: MM1.5-Video، المصممة لفهم الفيديو، وMM1.5-UI، المُعدَّة لفهم واجهات المستخدم المحمولة. من خلال دراسات تجريبية مكثفة وتحليلات تفكيكية (Ablations)، نقدّم رؤى مفصلة حول عمليات التدريب وقرارات التصميم التي شكلت التصميم النهائي، ما يُقدِّم توجيهات قيّمة للبحث المستقبلي في تطوير نماذج MLLM.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp