HyperAIHyperAI

Command Palette

Search for a command to run...

Ovis-U1-3B: نموذج الفهم والتوليد متعدد الوسائط

Date

منذ 6 أشهر

Size

1.19 GB

License

Apache 2.0

Paper URL

2506.23044

1. مقدمة البرنامج التعليمي

نجوم جيثب

يُعدّ Ovis-U1-3B نموذجًا موحدًا متعدد الوسائط، أطلقه فريق Ovis التابع لمجموعة علي بابا في 29 يونيو 2025. يدمج هذا النموذج ثلاث قدرات أساسية: فهم الوسائط المتعددة، وتحويل النصوص إلى صور، وتحرير الصور. وبفضل بنيته المتقدمة ومنهجية التدريب الموحدة التعاونية، يحقق النموذج توليفًا عالي الدقة للصور وتفاعلًا فعالًا بين النصوص والصور. وقد حقق Ovis-U1 نتائج رائدة في العديد من الاختبارات المعيارية الأكاديمية، بما في ذلك فهم الوسائط المتعددة، وتحويلها، وتحريرها، مما يدل على قدرة تعميم قوية وأداء ممتاز. تتوفر أوراق بحثية ذات صلة. التقرير الفني لـ Ovis-U1 .

يستخدم هذا البرنامج التعليمي بطاقة رسومات RTX 4090 واحدة. ويقدم ثلاثة أمثلة للاختبار: صورة + نص ← صورة، نص ← صورة، وصورة ← نص.

2. أمثلة المشاريع

3. خطوات التشغيل

1. بعد بدء تشغيل الحاوية، انقر فوق عنوان API للدخول إلى واجهة الويب

2. خطوات الاستخدام

إذا تم عرض "بوابة سيئة"، فهذا يعني أن النموذج قيد التهيئة. نظرًا لأن النموذج كبير الحجم، يرجى الانتظار لمدة 2-3 دقائق وتحديث الصفحة.

2.1 صورة + نص → صورة

وصف المعلمة

  • الإعدادات المتقدمة
    • مقياس توجيه الصورة: يتحكم في قوة تأثير الإشارات النصية على الصور المولدة.
    • مقياس توجيه النص: يتحكم في تأثير صورة الإدخال على الصورة الناتجة.
    • الخطوات: عدد التكرارات اللازمة لإنشاء الصورة.
    • البذرة: بذرة عشوائية لإمكانية تكرار عملية إنشاء الصورة.
    • توزيع عشوائي للبذرة: توزيع عشوائي للبذرة. سيتم توليد بذرة جديدة عشوائيًا في كل مرة يتم فيها توليد صورة.

2.2 النص → الصورة

2.3 الصورة → النص

4. المناقشة

🖌️ إذا رأيت مشروعًا عالي الجودة، فيرجى ترك رسالة في الخلفية للتوصية به! بالإضافة إلى ذلك، قمنا أيضًا بتأسيس مجموعة لتبادل الدروس التعليمية. مرحبًا بالأصدقاء لمسح رمز الاستجابة السريعة وإضافة [برنامج تعليمي SD] للانضمام إلى المجموعة لمناقشة المشكلات الفنية المختلفة ومشاركة نتائج التطبيق↓

معلومات الاستشهاد

معلومات الاستشهاد لهذا المشروع هي كما يلي:

@article{wang2025ovisu1,
  title={Ovis-U1 Technical Report}, 
  author={Wang, Guo-Hua and Zhao, Shanshan and Zhang, Xinjie and Cao, Liangfu and Zhan, Pengxin and Duan, Lunhao and Lu, Shiyin and Fu, Minghao and Zhao, Jianshan and Li, Yang and Chen, Qing-Guo},
  journal={arXiv preprint arXiv:2506.23044},
  year={2025}
}

Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp