تقرير فني Ovis2.5

نقدم نموذج Ovis2.5، النسخة التالية من Ovis2، المصممة لاستشعار بصري بذات الدقة الأصلية وتميّز في التفكير متعدد الوسائط القوي. يدمج Ovis2.5 محولًا بصريًا بذات الدقة الأصلية (native-resolution vision transformer) يُعالج الصور بدلالة دقتها الأصلية المتغيرة، مما يتجنب التدهور الناتج عن تقسيم الصور إلى خلايا ذات دقة ثابتة، ويُبقي على التفاصيل الدقيقة والبنية الشاملة للصورة — وهي عناصر حاسمة في المحتوى البصري الكثيف مثل المخططات المعقدة. ولتعزيز القدرة على التفكير، تم تدريب النموذج ليتجاوز سلسلة التفكير الخطية (linear chain-of-thought)، ويدخل في مرحلة "التأمل" (reflection)، بما في ذلك التحقق الذاتي وإعادة التقييم. وتُقدَّم هذه القدرة المتقدمة كوضع "تفكير" اختياري أثناء الاستدلال، مما يسمح للمستخدمين بموازنة التأخير (latency) مقابل دقة أعلى في المدخلات الصعبة. تم تدريب النموذج عبر منهج تعليمي متكامل مكوّن من خمس مراحل، يبني مهاراته تدريجيًا. يبدأ هذا المنهج بتدريب أساسي بصري ومتعدد الوسائط، ثم ينتقل إلى التدريب على أوامر على نطاق واسع، وينتهي بتحسين التوافق والتفكير باستخدام تقنيتي DPO وGRPO. ولضمان تكبير هذه التحسينات بكفاءة، استخدمنا تعبئة بيانات متعددة الوسائط (multimodal data packing) والتماثل الهجين (hybrid parallelism)، ما أسفر عن تسريع كبير في الأداء الإجمالي. ونُعلن عن إطلاق نموذجين مفتوحي المصدر: Ovis2.5-9B وOvis2.5-2B. ويُواصل النموذج الأصغر Ovis2.5-2B فلسفة "النموذج الصغير، الأداء الكبير" التي تمثلت في Ovis2، مما يجعله مثاليًا للسياقات التي تعاني من موارد محدودة أو التي تعمل محليًا على الأجهزة. على لائحة التصنيف متعددة الوسائط OpenCompass، حقق Ovis2.5-9B متوسط درجة 78.3، ما يمثل تحسنًا ملموسًا مقارنة بنسخة سابقة (Ovis2-8B)، ويحقق أداءً رائدًا بين النماذج المفتوحة المصدر من نوع MLLM (النماذج اللغوية الكبيرة متعددة الوسائط) ضمن نطاق المعلمات الأقل من 40 مليار، بينما حقق Ovis2.5-2B درجة 73.9، مما يضعه في الصدارة (SOTA) ضمن حجمه. وبالإضافة إلى المعدلات الإجمالية، حقق Ovis2.5 نتائج متميزة في اختبارات مجالات العلوم والهندسة والرياضيات (STEM)، وتميّز بقدرات قوية في المهام المرتبطة بالربط (grounding) وفي تحليل الفيديو، كما حقق أداءً متفوقًا بين النماذج المفتوحة المصدر في نطاق حجمه في تحليل المخططات المعقدة.