HyperAIHyperAI
منذ 24 أيام

تقرير فني عن SAIL-VL2

Weijie Yin, Yongjie Ye, Fangxun Shu, Yue Liao, Zijian Kang, Hongyuan Dong, Haiyang Yu, Dingkang Yang, Jiacong Wang, Han Wang, Wenzhuo Liu, Xiao Liang, Shuicheng Yan, Chao Feng
تقرير فني عن SAIL-VL2
الملخص

نُقدِّم SAIL-VL2، وهو نموذج أساسي متعدد الوسائط (LVM) مفتوح المصدر للفهم والاستنتاج متعدد الوسائط الشامل. كخليفة لـ SAIL-VL، يحقق SAIL-VL2 أداءً من الطراز الرائد على مقياسَي 2B و8B من المعاملات عبر مجموعة متنوعة من معايير الصور والفيديوهات، مُظهرًا قدرات قوية تمتد من الإدراك الدقيق إلى الاستنتاج المعقد. تُشغِّل ثلاث ابتكارات رئيسية فعالية النموذج. أولاً، تم تطوير خط أنابيب تنقية بيانات على نطاق واسع باستخدام استراتيجيات تقييم وتصفية تُحسّن الجودة والتوزيع في بيانات التسمية التوضيحية، وOCR، وأسئلة وأجوبة (QA)، والفيديوهات، مما يُعزز كفاءة التدريب. ثانيًا، تم تطوير إطار تدريب متدرج يبدأ بمحرّك بصري مُدرّب مسبقًا قوي (SAIL-ViT)، ثم ينتقل عبر التدريب المتعدد الوسائط، وينتهي بنموذج هجين مُدمج للتدريب المُخصص (SFT-RL) يُركّز على التفكير، مما يُعزّز بشكل منهجي قدرات النموذج. ثالثًا، تطورات معمارية تتجاوز النماذج الكثيفة من LLM إلى تصاميم فعّالة من نوع خلايا مزيج الخبراء (MoE) النادرة. وبفضل هذه المساهمات، يُظهر SAIL-VL2 أداءً تنافسيًا عبر 106 مجموعة بيانات، ويحقق نتائج من الطراز الرائد في معايير الاستنتاج الصعبة مثل MMMU وMathVista. علاوةً على ذلك، يحتل نموذج SAIL-VL2-2B المرتبة الأولى بين النماذج المفتوحة المصدر المُعلنة رسميًا على لائحة OpenCompass ضمن مقياس 4B من المعاملات، ويُعدّ أساسًا فعّالًا وقابلًا للتوسع لمجتمع النماذج المتعددة الوسائط المفتوح المصدر.