Command Palette
Search for a command to run...
MM1.5: الطرق، التحليل، والرؤى الناتجة عن التدريب الدقيق لنماذج لغة متعددة الوسائط
الملخص
نقدّم نموذج MM1.5، وهو عائلة جديدة من نماذج اللغة الكبيرة متعددة الوسائط (MLLMs)، مصممة لتعزيز القدرات في فهم الصور الغنية بالنصوص، وتمييز الصور المرجعيّة والتثبيت البصري، والاستدلال على الصور المتعددة. مبنيةً على معمارية MM1، تُطبّق نماذج MM1.5 نهجًا متمحورًا حول البيانات في تدريب النموذج، واستكشافًا منهجيًا لتأثير مزيج متنوع من البيانات على مدار دورة تدريب النموذج بالكامل. ويشمل ذلك بيانات OCR عالية الجودة ونصوص مُصاغة اصطناعيًا لعملية التدريب المُستمر، فضلاً عن مزيج مُحسَّن من بيانات التدريب المُوجَّه بصريًا لمرحلة التدريب المُحدَّد بتعليمات. تتراوح نماذجنا من 1 بيليون إلى 30 بيليون معلمة، وتشمل كلاً من التوافقيات الكثيفة (Dense) ونماذج مزيج الخبراء (MoE)، وتبين أن تدبيرًا دقيقًا للبيانات واستراتيجيات التدريب يمكن أن تُحقِّق أداءً قويًا حتى في المقياس الصغير (1 بيليون و3 بيليون معلمة). علاوةً على ذلك، نقدّم نسختين مخصصتين: MM1.5-Video، المصممة لفهم الفيديو، وMM1.5-UI، المُعدَّة لفهم واجهات المستخدم المحمولة. من خلال دراسات تجريبية مكثفة وتحليلات تفكيكية (Ablations)، نقدّم رؤى مفصلة حول عمليات التدريب وقرارات التصميم التي شكلت التصميم النهائي، ما يُقدِّم توجيهات قيّمة للبحث المستقبلي في تطوير نماذج MLLM.
المعايير القياسية
| معيار قياسي | المنهجية | المقاييس |
|---|---|---|
| visual-question-answering-on-mm-vet | MM1.5-30B | GPT-4 score: 52.0 |
| visual-question-answering-on-mm-vet | MM1.5-3B | GPT-4 score: 41.0 |
| visual-question-answering-on-mm-vet | MM1.5-1B-MoE | GPT-4 score: 39.8 |
| visual-question-answering-on-mm-vet | MM1.5-7B | GPT-4 score: 42.2 |
| visual-question-answering-on-mm-vet | MM1.5-1B | GPT-4 score: 37.4 |
| visual-question-answering-on-mm-vet | MM1.5-3B-MoE | GPT-4 score: 43.7 |
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.