Command Palette
Search for a command to run...
Ovis-U1-3B: نموذج الفهم والتوليد متعدد الوسائط
Date
Size
1.19 GB
License
Apache 2.0
GitHub
Paper URL
1. مقدمة البرنامج التعليمي

يُعدّ Ovis-U1-3B نموذجًا موحدًا متعدد الوسائط، أطلقه فريق Ovis التابع لمجموعة علي بابا في 29 يونيو 2025. يدمج هذا النموذج ثلاث قدرات أساسية: فهم الوسائط المتعددة، وتحويل النصوص إلى صور، وتحرير الصور. وبفضل بنيته المتقدمة ومنهجية التدريب الموحدة التعاونية، يحقق النموذج توليفًا عالي الدقة للصور وتفاعلًا فعالًا بين النصوص والصور. وقد حقق Ovis-U1 نتائج رائدة في العديد من الاختبارات المعيارية الأكاديمية، بما في ذلك فهم الوسائط المتعددة، وتحويلها، وتحريرها، مما يدل على قدرة تعميم قوية وأداء ممتاز. تتوفر أوراق بحثية ذات صلة. التقرير الفني لـ Ovis-U1 .
يستخدم هذا البرنامج التعليمي بطاقة رسومات RTX 4090 واحدة. ويقدم ثلاثة أمثلة للاختبار: صورة + نص ← صورة، نص ← صورة، وصورة ← نص.
2. أمثلة المشاريع

3. خطوات التشغيل
1. بعد بدء تشغيل الحاوية، انقر فوق عنوان API للدخول إلى واجهة الويب

2. خطوات الاستخدام
إذا تم عرض "بوابة سيئة"، فهذا يعني أن النموذج قيد التهيئة. نظرًا لأن النموذج كبير الحجم، يرجى الانتظار لمدة 2-3 دقائق وتحديث الصفحة.
2.1 صورة + نص → صورة

وصف المعلمة
- الإعدادات المتقدمة
- مقياس توجيه الصورة: يتحكم في قوة تأثير الإشارات النصية على الصور المولدة.
- مقياس توجيه النص: يتحكم في تأثير صورة الإدخال على الصورة الناتجة.
- الخطوات: عدد التكرارات اللازمة لإنشاء الصورة.
- البذرة: بذرة عشوائية لإمكانية تكرار عملية إنشاء الصورة.
- توزيع عشوائي للبذرة: توزيع عشوائي للبذرة. سيتم توليد بذرة جديدة عشوائيًا في كل مرة يتم فيها توليد صورة.
2.2 النص → الصورة

2.3 الصورة → النص

4. المناقشة
🖌️ إذا رأيت مشروعًا عالي الجودة، فيرجى ترك رسالة في الخلفية للتوصية به! بالإضافة إلى ذلك، قمنا أيضًا بتأسيس مجموعة لتبادل الدروس التعليمية. مرحبًا بالأصدقاء لمسح رمز الاستجابة السريعة وإضافة [برنامج تعليمي SD] للانضمام إلى المجموعة لمناقشة المشكلات الفنية المختلفة ومشاركة نتائج التطبيق↓

معلومات الاستشهاد
معلومات الاستشهاد لهذا المشروع هي كما يلي:
@article{wang2025ovisu1,
title={Ovis-U1 Technical Report},
author={Wang, Guo-Hua and Zhao, Shanshan and Zhang, Xinjie and Cao, Liangfu and Zhan, Pengxin and Duan, Lunhao and Lu, Shiyin and Fu, Minghao and Zhao, Jianshan and Li, Yang and Chen, Qing-Guo},
journal={arXiv preprint arXiv:2506.23044},
year={2025}
}
Build AI with AI
From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.