Ovis-U1-3B: نموذج الفهم والتوليد متعدد الوسائط
1. مقدمة البرنامج التعليمي

Ovis-U1-3B هو نموذج موحد متعدد الوسائط، أصدره فريق Ovis التابع لمجموعة علي بابا في 29 يونيو 2025. يدمج النموذج ثلاث قدرات أساسية: الفهم متعدد الوسائط، وتوليد النص إلى صورة، وتحرير الصور. بالاعتماد على بنية متقدمة وطريقة تدريب موحدة تعاونية، يحقق النموذج توليفًا عالي الدقة للصور وتفاعلًا فعالًا بين النص والصورة. في العديد من المعايير الأكاديمية، مثل الفهم متعدد الوسائط والتوليد والتحرير، حقق Ovis-U1 نتائج رائدة، مُظهرًا قدرات تعميم قوية وأداءً متميزًا. نتائج الورقة البحثية ذات الصلة هي:التقرير الفني لـ Ovis-U1".
يستخدم هذا البرنامج التعليمي بطاقة رسومات RTX 4090 واحدة. ويقدم ثلاثة أمثلة للاختبار: صورة + نص ← صورة، نص ← صورة، وصورة ← نص.
2. أمثلة المشاريع

3. خطوات التشغيل
1. بعد بدء تشغيل الحاوية، انقر فوق عنوان API للدخول إلى واجهة الويب

2. خطوات الاستخدام
إذا تم عرض "بوابة سيئة"، فهذا يعني أن النموذج قيد التهيئة. نظرًا لأن النموذج كبير الحجم، يرجى الانتظار لمدة 2-3 دقائق وتحديث الصفحة.
2.1 صورة + نص → صورة

وصف المعلمة
- الإعدادات المتقدمة
- مقياس توجيه الصورة: يتحكم في قوة تأثير الإشارات النصية على الصور المولدة.
- مقياس توجيه النص: يتحكم في تأثير صورة الإدخال على الصورة الناتجة.
- الخطوات: عدد التكرارات اللازمة لإنشاء الصورة.
- البذرة: بذرة عشوائية لإمكانية تكرار عملية إنشاء الصورة.
- توزيع عشوائي للبذرة: توزيع عشوائي للبذرة. سيتم توليد بذرة جديدة عشوائيًا في كل مرة يتم فيها توليد صورة.
2.2 النص → الصورة

2.3 الصورة → النص

4. المناقشة
🖌️ إذا رأيت مشروعًا عالي الجودة، فيرجى ترك رسالة في الخلفية للتوصية به! بالإضافة إلى ذلك، قمنا أيضًا بتأسيس مجموعة لتبادل الدروس التعليمية. مرحبًا بالأصدقاء لمسح رمز الاستجابة السريعة وإضافة [برنامج تعليمي SD] للانضمام إلى المجموعة لمناقشة المشكلات الفنية المختلفة ومشاركة نتائج التطبيق↓

معلومات الاستشهاد
معلومات الاستشهاد لهذا المشروع هي كما يلي:
@article{wang2025ovisu1,
title={Ovis-U1 Technical Report},
author={Wang, Guo-Hua and Zhao, Shanshan and Zhang, Xinjie and Cao, Liangfu and Zhan, Pengxin and Duan, Lunhao and Lu, Shiyin and Fu, Minghao and Zhao, Jianshan and Li, Yang and Chen, Qing-Guo},
journal={arXiv preprint arXiv:2506.23044},
year={2025}
}