الملخص

نُقدِّم SAIL-VL2، وهو نموذج أساسي متعدد الوسائط (LVM) مفتوح المصدر للفهم والاستنتاج متعدد الوسائط الشامل. كخليفة لـ SAIL-VL، يحقق SAIL-VL2 أداءً من الطراز الرائد على مقياسَي 2B و8B من المعاملات عبر مجموعة متنوعة من معايير الصور والفيديوهات، مُظهرًا قدرات قوية تمتد من الإدراك الدقيق إلى الاستنتاج المعقد. تُشغِّل ثلاث ابتكارات رئيسية فعالية النموذج. أولاً، تم تطوير خط أنابيب تنقية بيانات على نطاق واسع باستخدام استراتيجيات تقييم وتصفية تُحسّن الجودة والتوزيع في بيانات التسمية التوضيحية، وOCR، وأسئلة وأجوبة (QA)، والفيديوهات، مما يُعزز كفاءة التدريب. ثانيًا، تم تطوير إطار تدريب متدرج يبدأ بمحرّك بصري مُدرّب مسبقًا قوي (SAIL-ViT)، ثم ينتقل عبر التدريب المتعدد الوسائط، وينتهي بنموذج هجين مُدمج للتدريب المُخصص (SFT-RL) يُركّز على التفكير، مما يُعزّز بشكل منهجي قدرات النموذج. ثالثًا، تطورات معمارية تتجاوز النماذج الكثيفة من LLM إلى تصاميم فعّالة من نوع خلايا مزيج الخبراء (MoE) النادرة. وبفضل هذه المساهمات، يُظهر SAIL-VL2 أداءً تنافسيًا عبر 106 مجموعة بيانات، ويحقق نتائج من الطراز الرائد في معايير الاستنتاج الصعبة مثل MMMU وMathVista. علاوةً على ذلك، يحتل نموذج SAIL-VL2-2B المرتبة الأولى بين النماذج المفتوحة المصدر المُعلنة رسميًا على لائحة OpenCompass ضمن مقياس 4B من المعاملات، ويُعدّ أساسًا فعّالًا وقابلًا للتوسع لمجتمع النماذج المتعددة الوسائط المفتوح المصدر.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار