HyperAI
منذ 16 أيام

تقرير فني Ovis-U1

Guo-Hua Wang, Shanshan Zhao, Xinjie Zhang, Liangfu Cao, Pengxin Zhan, Lunhao Duan, Shiyin Lu, Minghao Fu, Xiaohao Chen, Jianshan Zhao, Yang Li, Qing-Guo Chen
تقرير فني Ovis-U1
الملخص

في هذا التقرير، نقدم Ovis-U1، وهو نموذج موحد يحتوي على ثلاثة مليارات معلمةيدمج فهم الوسائط المتعددة، وإنشاء الصور من النصوص، وقدرات تحرير الصور. معتمداً على أساس سلسلة Ovis، يدمج Ovis-U1مفكك بصرى يستند إلى الانتشار (diffusion-based visual decoder) مع محسن رموز ثنائي الاتجاه (bidirectional token refiner)، مما يمكنه من أداء مهام إنشاء الصورمما يعادل أفضل النماذج مثل GPT-4o. على عكس بعض النماذج السابقة التي تستعمل MLLM متجمد لأداء المهام الإنشائية، يستخدم Ovis-U1نهجاً جديداً للتدريب الموحد يبدأ من نموذج لغوي. بالمقارنة مع التدريب حصراً على مهام الفهم أو الإنشاء، فإن التدريب الموحديحقق أداءً أفضل، مما يظهر التحسين الذي يتم تحقيقه من خلال دمج هاتين المهمتين. حقق Ovis-U1 درجة 69.6 في معيار الأداء الأكاديمي متعدد الوسائط OpenCompass,متخطياً النماذج الرائدة حديثاً مثل Ristretto-3B و SAIL-VL-1.5-2B. في إنشاء الصور من النصوص، يتميز بدرجات عالية تبلغ 83.72 و 0.89 في مقاييس DPG-Bench و GenEval، على التوالي.بالنسبة لتحرير الصور، حقق درجات 4.00 و 6.42 في مقاييس ImgEdit-Bench و GEdit-Bench-EN، على التوالي. كنسخة أولية من سلسلة النماذج الموحدة Ovis,يدفع Ovis-U1 الحدود في فهم الوسائط المتعددة والإنشاء والتحرير.