Uni-MoE-2.0-Omni: توسيع النموذج الكبير المتعدد الوسائط المتمحور حول اللغة باستخدام MoE المتقدمة، والتدريب، والبيانات

الملخص
نقدم Uni-MoE 2.0 من سلسلة Lychee. كنموذج كبير متعدد الوسائط مفتوح المصدر بالكامل (OLM)، يُعدّ Uni-MoE 2.0 تقدّمًا كبيرًا في سلسلة Uni-MoE التابعة لـ Lychee فيما يتعلق بالفهم المتعدد الوسائط المركّز حول اللغة، والاستنتاج، والإنتاج. تم بناء Uni-MoE-2.0-Omni من الصفر على أساس البنية المكثفة Qwen2.5-7B، من خلال ثلاث إسهامات أساسية: تصميم ديناميكي للـ Mixture-of-Experts (MoE) يمتلك سعة متغيرة، واستراتيجية تدريب تدريجية محسّنة بأسلوب تقوية تكرارية، بالإضافة إلى تقنية دقيقة لتوافق البيانات المتعددة الوسائط. ويتمتع النموذج بقدرة على الفهم الشامل عبر جميع الوسائط، فضلًا عن إنتاج الصور والنصوص والصوت. من حيث البنية المعمارية، يوازن إطارنا الجديد للـ MoE بين الكفاءة الحسابية والقدرة على التعامل مع 10 إدخالات عبر الوسائط، باستخدام خبراء مشتركين، وخوارزميات توجيه، وخبراء غير نشطين، بينما يضمن لنا RoPE ثلاثي الأبعاد للوسائط الشاملة (Omni-Modality 3D RoPE) التوافق المكاني-الزماني عبر الوسائط داخل طبقة الانتباه الذاتي. بالنسبة للتدريب، وبعد التدريب الأولي عبر الوسائط، نستخدم استراتيجية تدقيق مراقبة تدريجية تفعّل خبراء محددة لكل وسائط، وتُحسّن بتركيب بيانات متوازن وأسلوب تقوية تكرارية GSPO-DPO لضمان استقرار التدريب القائم على التعلم التقويمي وتحسين القدرة على الاستنتاج. من حيث البيانات، تم تدريب النموذج الأساسي على نحو 75 مليار رمز من بيانات متعددة الوسائط مفتوحة المصدر، ويحتوي على رموز خاصة لإنتاج الصوت والصورة، ما يمكّنه من تعلّم مهام الإنتاج من خلال الاعتماد على إشارات لغوية في المخرجات. تُظهر التقييمات الواسعة عبر 85 معيارًا أن النموذج يحقق أداءً من الدرجة الأولى (SOTA) أو أداءً تنافسيًا قويًا مقارنة بالنموذج الرائد في مجال OLM، ويتفوّق على Qwen2.5-Omni (الذي تم تدريبه على 1.2 تريليون رمز) في أكثر من 50 من أصل 76 معيارًا. وتتمثل نقاط القوة الرئيسية في فهم الفيديو (+7% متوسطًا على 8 معايير)، وفهم الشمولية المتعددة الوسائط (+7% متوسطًا على 4 معايير)، واستنتاج الصوت والصورة (+4%)، كما يُسهم في تطوير معالجة الصوت الطويلة (بخفض معدل خطأ الترجمة (WER) بنسبة 4.2%)، ويُقدّم الريادة في معالجة الصور منخفضة المستوى وإنتاج الصور التحكّمي على 5 معايير.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.