Command Palette
Search for a command to run...
تقرير فني عن Ovis2.5
تقرير فني عن Ovis2.5
الملخص
نقدم Ovis2.5، النسخة التالية من Ovis2، المصممة لتمييز بصري عالي الدقة والتفكير متعدد الوسائط القوي. يدمج Ovis2.5 محول رؤية بحلقة أصلية (native-resolution vision transformer) يعالج الصور بحلقاتها الأصلية المتغيرة، مما يتجنب التدهور الناتج عن التقسيم بحلقة ثابتة ويحافظ على التفاصيل الدقيقة والبنية الشاملة — وهي عوامل حاسمة في المحتوى البصري الكثيف مثل المخططات المعقدة. ولتعزيز القدرة على الاستنتاج، تم تدريب النموذج ليتجاوز السلسلة الخطية للتفكير (linear chain-of-thought) ويتبنى عملية "التأمل" — بما في ذلك التحقق الذاتي وإعادة التقييم. تُقدَّم هذه القدرة المتقدمة كوضع "تفكير" اختياري أثناء الاستدلال، مما يسمح للمستخدمين بموازنة التأخير (latency) مقابل دقة أعلى في المدخلات الصعبة. تم تدريب النموذج عبر منهجية شاملة مكوَّنة من خمس مراحل، تبني المهارات تدريجيًا. تبدأ العملية بتدريب أساسي على الرؤية والوسائط المتعددة، ثم تنتقل إلى التكييف على نطاق واسع باستخدام التعليمات، وتنتهي بتعزيز التوافق والاستدلال باستخدام تقنيتي DPO وGRPO. ولضمان التوسع الفعّال لهذه التحسينات، استخدمنا تعبئة بيانات متعددة الوسائط (multimodal data packing) والتوازي الهجين (hybrid parallelism)، مما أدى إلى تسريع كبير في الأداء الإجمالي. ونُطلق نموذجين مفتوحي المصدر: Ovis2.5-9B وOvis2.5-2B. يواصل النموذج الأصغر Ovis2.5-2B فلسفة "النموذج الصغير، الأداء الكبير" التي تميز Ovis2، مما يجعله مثاليًا للسيناريوهات التي تُعاني من قيود موارد الحوسبة أو التي تتطلب التشغيل على الجهاز (on-device). على قائمة التصنيف متعدد الوسائط OpenCompass، حقق Ovis2.5-9B متوسطًا قدره 78.3، مُحرزًا تحسنًا ملحوظًا مقارنةً بسابقه Ovis2-8B، وحقق نتائج قياسية بين النماذج المفتوحة المصدر من نوع MLLMs في نطاق المعلمات دون 40 مليار؛ في حين بلغ Ovis2.5-2B 73.9، مُحققًا النتائج القصوى في حجمه. وبالإضافة إلى النتائج الإجمالية، حقق Ovis2.5 نتائج متفوقة في اختبارات مجالات العلوم والهندسة والرياضيات (STEM)، وتميّز بقدرات قوية في المهام المرتبطة بالربط (grounding) وفي الفيديو، كما حقق نتائج قياسية مفتوحة المصدر في نطاقه من حيث تحليل المخططات المعقدة.