Command Palette
Search for a command to run...
Ovis-Image: نموذج توليد صور عالية الجودة
Date
Size
195.4 MB
Tags
License
Apache 2.0
GitHub
Paper URL
1. مقدمة البرنامج التعليمي

يُعدّ Ovis-Image نظامًا عالي الجودة لتحويل النصوص إلى صور (T2I)، مبنيًا على نموذج Ovis-Image-7B عالي الدقة لتحويل النصوص إلى صور، والذي أصدره فريق AIDC-AI في نوفمبر 2025. يستخدم هذا النظام مُشفّر Transformer متعدد المقاييس وبنية توليدية ذاتية التراجع، مما يُظهر أداءً متميزًا في توليد الصور عالية الدقة، وتمثيل التفاصيل، والتكيف مع أنماط متعددة. من خلال تقنيات أخذ عينات الضوضاء المُحسّنة وتقنيات التوجيه الخالية من المُصنِّف، يستطيع Ovis-Image توليد صور طبيعية ومتماسكة وغنية بالتفاصيل بدقة 1024×1024، ويدعم أنماطًا متنوعة تشمل الواقعية، والسايبربانك، والأنمي، والخيال العلمي. تتوفر أوراق بحثية ذات صلة. Ovis-Image 7B: توليد النص إلى صورة باستخدام محول متعدد المقاييس .
الميزات الأساسية:
- إنشاء أصلي عالي الدقة: يدعم إنشاء أصلي بدقة تصل إلى 1024×1024، مما يحقق نتائج واضحة ومفصلة دون الحاجة إلى نماذج إضافية فائقة الدقة.
- النمذجة الدلالية متعددة المقاييس: بناءً على بنية ترميز المحول متعددة المقاييس، فإنها تأخذ في الاعتبار كل من التركيب العام وتفاصيل الملمس المحلي.
- إعادة إنتاج التفاصيل عالية الجودة: أداء مستقر من حيث الشخصيات والمواد والإضاءة والتعقيد البيئي.
- تنوع قوي عبر أنماط متعددة: يدعم بشكل أصلي العديد من الأنماط السائدة مثل الواقعية، والسايبربانك، والأنمي، والخيال العلمي، والرسوم التوضيحية.
- قدرة توليد قابلة للتحكم بدرجة عالية: يتم تحقيق توليد دقيق وقابل للتحكم من خلال مقياس التوجيه وخطوات أخذ العينات والدقة والبذور العشوائية.
- موازنة دقة الاستدلال والكفاءة: يدعم الاستدلال منخفض الذاكرة BF16، مع الاستفادة من فك تشفير FP32 لتحسين دقة الصورة النهائية.
يستخدم هذا البرنامج التعليمي Grado لنشر نموذج Ovis-Image 7B الأساسي، مع موارد الحوسبة "RTX_5090"، والتي يمكنها تحقيق إنشاء نص عالي الدقة 1024×1024 دون أي اختناقات في ذاكرة الفيديو/الذاكرة.
2. عرض التأثير

يؤدي جهاز Ovis-Image 7B أداءً استثنائيًا في المهام الأساسية:
- إنشاء مشهد معقد: إنشاء صور طبيعية وسليمة منطقيًا من خلال مطالبات نصية مفصلة.
- دعم الأنماط المتعددة: يمكنه إنشاء أنماط بصرية مختلفة مثل الواقعية، والسايبربانك، والأنمي، والخيال العلمي.
- تفاصيل عالية الدقة: نسيج غني، وظلال، وإضاءة.
- إمكانية التحكم: يمكن تعديل التأثير الناتج عن طريق تغيير عدد الخطوات ومقياس التوجيه والدقة.
3. خطوات التشغيل
1. ابدأ تشغيل الحاوية
بعد بدء تشغيل الحاوية، انقر فوق عنوان API للدخول إلى واجهة الويب

2. البدء
إذا ظهرت رسالة "بوابة غير صالحة"، فهذا يعني أن النموذج قيد التهيئة. نظرًا لكبر حجم النموذج، يُرجى الانتظار دقيقتين أو ثلاث دقائق ثم تحديث الصفحة.

وصف المعلمة
- ارتفاع الصورة / العرض:إنشاء ارتفاع وعرض الصورة، بحجم خطوة 32.
- عدد خطوات الاستدلالكلما زاد عدد الخطوات المولدة، أصبحت تفاصيل الصورة أكثر ثراءً.
- مقياس التوجيهقوة موجه النص؛ كلما زادت القيمة، كلما اقتربت الصورة من الموجه.
- بذرةتضمن البذرة العشوائية توليدًا قابلًا للتكرار.
معلومات الاستشهاد
معلومات الاستشهاد لهذا المشروع هي كما يلي:
@article{ovisimage7b,
title={Ovis-Image 7B: Text-to-Image Generation with Multi-Scale Transformer},
author={AIDC-AI Team},
journal={arXiv preprint arXiv:2511.22982},
year={2025}
}Build AI with AI
From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.