التاريخ

منذ عام واحد

الوسوم

توليد الصور

فهم الصور

RTX 5090

رابط الورقة البحثية

2506.23044

الترخيص

Apache 2.0

GitHub

AIDC-AI/Ovis-U1451

1. مقدمة البرنامج التعليمي

يُعدّ Ovis-U1-3B نموذجًا موحدًا متعدد الوسائط، أطلقه فريق Ovis التابع لمجموعة علي بابا في 29 يونيو 2025. يدمج هذا النموذج ثلاث قدرات أساسية: فهم الوسائط المتعددة، وتحويل النصوص إلى صور، وتحرير الصور. وبفضل بنيته المتقدمة ومنهجية التدريب الموحدة التعاونية، يحقق النموذج توليفًا عالي الدقة للصور وتفاعلًا فعالًا بين النصوص والصور. وقد حقق Ovis-U1 نتائج رائدة في العديد من الاختبارات المعيارية الأكاديمية، بما في ذلك فهم الوسائط المتعددة، وتحويلها، وتحريرها، مما يدل على قدرة تعميم قوية وأداء ممتاز. تتوفر أوراق بحثية ذات صلة. التقرير الفني لـ Ovis-U1 .

يستخدم هذا البرنامج التعليمي بطاقة رسومات RTX 4090 واحدة. ويقدم ثلاثة أمثلة للاختبار: صورة + نص ← صورة، نص ← صورة، وصورة ← نص.

2. أمثلة المشاريع

3. خطوات التشغيل

1. بعد بدء تشغيل الحاوية، انقر فوق عنوان API للدخول إلى واجهة الويب

2. خطوات الاستخدام

إذا تم عرض "بوابة سيئة"، فهذا يعني أن النموذج قيد التهيئة. نظرًا لأن النموذج كبير الحجم، يرجى الانتظار لمدة 2-3 دقائق وتحديث الصفحة.

2.1 صورة + نص → صورة

وصف المعلمة

الإعدادات المتقدمة
- مقياس توجيه الصورة: يتحكم في قوة تأثير الإشارات النصية على الصور المولدة.
- مقياس توجيه النص: يتحكم في تأثير صورة الإدخال على الصورة الناتجة.
- الخطوات: عدد التكرارات اللازمة لإنشاء الصورة.
- البذرة: بذرة عشوائية لإمكانية تكرار عملية إنشاء الصورة.
- توزيع عشوائي للبذرة: توزيع عشوائي للبذرة. سيتم توليد بذرة جديدة عشوائيًا في كل مرة يتم فيها توليد صورة.

2.2 النص → الصورة

2.3 الصورة → النص

4. المناقشة

🖌️ إذا رأيت مشروعًا عالي الجودة، فيرجى ترك رسالة في الخلفية للتوصية به! بالإضافة إلى ذلك، قمنا أيضًا بتأسيس مجموعة لتبادل الدروس التعليمية. مرحبًا بالأصدقاء لمسح رمز الاستجابة السريعة وإضافة [برنامج تعليمي SD] للانضمام إلى المجموعة لمناقشة المشكلات الفنية المختلفة ومشاركة نتائج التطبيق↓

معلومات الاستشهاد

معلومات الاستشهاد لهذا المشروع هي كما يلي:

@article{wang2025ovisu1,
  title={Ovis-U1 Technical Report}, 
  author={Wang, Guo-Hua and Zhao, Shanshan and Zhang, Xinjie and Cao, Liangfu and Zhan, Pengxin and Duan, Lunhao and Lu, Shiyin and Fu, Minghao and Zhao, Jianshan and Li, Yang and Chen, Qing-Guo},
  journal={arXiv preprint arXiv:2506.23044},
  year={2025}
}

تم المساهمة في هذا الدفتر من قبل مستخدمي المجتمع وهو مخصص لأغراض تعليمية وإعلامية فقط. إذا كان أي محتوى ينطوي على انتهاك لحقوق النشر، يرجى الاتصال بنا على [email protected] للمراجعة والإزالة الفورية.

نظرة عامة على Notebook

المستوى

مبتدئ

الموضوع

الرؤية الحاسوبية الذكاء الاصطناعي التوليدي

نموذج صورة ERNIE-Image-Turbo

منذ 2 أشهر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

HyperAI

شغّل هذا الـNotebook ناقش على Discord