HyperAIHyperAI

Command Palette

Search for a command to run...

منذ 3 أشهر

MM1.5: الطرق، التحليل، والرؤى الناتجة عن التدريب الدقيق لنماذج لغة متعددة الوسائط

الملخص

نقدّم نموذج MM1.5، وهو عائلة جديدة من نماذج اللغة الكبيرة متعددة الوسائط (MLLMs)، مصممة لتعزيز القدرات في فهم الصور الغنية بالنصوص، وتمييز الصور المرجعيّة والتثبيت البصري، والاستدلال على الصور المتعددة. مبنيةً على معمارية MM1، تُطبّق نماذج MM1.5 نهجًا متمحورًا حول البيانات في تدريب النموذج، واستكشافًا منهجيًا لتأثير مزيج متنوع من البيانات على مدار دورة تدريب النموذج بالكامل. ويشمل ذلك بيانات OCR عالية الجودة ونصوص مُصاغة اصطناعيًا لعملية التدريب المُستمر، فضلاً عن مزيج مُحسَّن من بيانات التدريب المُوجَّه بصريًا لمرحلة التدريب المُحدَّد بتعليمات. تتراوح نماذجنا من 1 بيليون إلى 30 بيليون معلمة، وتشمل كلاً من التوافقيات الكثيفة (Dense) ونماذج مزيج الخبراء (MoE)، وتبين أن تدبيرًا دقيقًا للبيانات واستراتيجيات التدريب يمكن أن تُحقِّق أداءً قويًا حتى في المقياس الصغير (1 بيليون و3 بيليون معلمة). علاوةً على ذلك، نقدّم نسختين مخصصتين: MM1.5-Video، المصممة لفهم الفيديو، وMM1.5-UI، المُعدَّة لفهم واجهات المستخدم المحمولة. من خلال دراسات تجريبية مكثفة وتحليلات تفكيكية (Ablations)، نقدّم رؤى مفصلة حول عمليات التدريب وقرارات التصميم التي شكلت التصميم النهائي، ما يُقدِّم توجيهات قيّمة للبحث المستقبلي في تطوير نماذج MLLM.

المعايير القياسية

معيار قياسيالمنهجيةالمقاييس
visual-question-answering-on-mm-vetMM1.5-30B
GPT-4 score: 52.0
visual-question-answering-on-mm-vetMM1.5-3B
GPT-4 score: 41.0
visual-question-answering-on-mm-vetMM1.5-1B-MoE
GPT-4 score: 39.8
visual-question-answering-on-mm-vetMM1.5-7B
GPT-4 score: 42.2
visual-question-answering-on-mm-vetMM1.5-1B
GPT-4 score: 37.4
visual-question-answering-on-mm-vetMM1.5-3B-MoE
GPT-4 score: 43.7

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
MM1.5: الطرق، التحليل، والرؤى الناتجة عن التدريب الدقيق لنماذج لغة متعددة الوسائط | الأوراق البحثية | HyperAI