تقرير فني Ovis-U1

في هذا التقرير، نقدم Ovis-U1، وهو نموذج موحد يحتوي على ثلاثة مليارات معلمةيدمج فهم الوسائط المتعددة، وإنشاء الصور من النصوص، وقدرات تحرير الصور. معتمداً على أساس سلسلة Ovis، يدمج Ovis-U1مفكك بصرى يستند إلى الانتشار (diffusion-based visual decoder) مع محسن رموز ثنائي الاتجاه (bidirectional token refiner)، مما يمكنه من أداء مهام إنشاء الصورمما يعادل أفضل النماذج مثل GPT-4o. على عكس بعض النماذج السابقة التي تستعمل MLLM متجمد لأداء المهام الإنشائية، يستخدم Ovis-U1نهجاً جديداً للتدريب الموحد يبدأ من نموذج لغوي. بالمقارنة مع التدريب حصراً على مهام الفهم أو الإنشاء، فإن التدريب الموحديحقق أداءً أفضل، مما يظهر التحسين الذي يتم تحقيقه من خلال دمج هاتين المهمتين. حقق Ovis-U1 درجة 69.6 في معيار الأداء الأكاديمي متعدد الوسائط OpenCompass,متخطياً النماذج الرائدة حديثاً مثل Ristretto-3B و SAIL-VL-1.5-2B. في إنشاء الصور من النصوص، يتميز بدرجات عالية تبلغ 83.72 و 0.89 في مقاييس DPG-Bench و GenEval، على التوالي.بالنسبة لتحرير الصور، حقق درجات 4.00 و 6.42 في مقاييس ImgEdit-Bench و GEdit-Bench-EN، على التوالي. كنسخة أولية من سلسلة النماذج الموحدة Ovis,يدفع Ovis-U1 الحدود في فهم الوسائط المتعددة والإنشاء والتحرير.