HyperAIHyperAI

Command Palette

Search for a command to run...

Console

Ovis-Image: نموذج توليد صور عالية الجودة

1. مقدمة البرنامج التعليمي

يبني

Ovis-Image هو نظام نموذجي عالي الجودة لتوليد النصوص إلى الصور (T2I)، مبني على نموذج Ovis-Image-7B عالي الدقة لتوليد النصوص إلى الصور، والذي أصدره فريق AIDC-AI في نوفمبر 2025. يستخدم هذا النظام مُشفِّرًا متعدد المقاييس ومُهيأً توليديًا ذاتيًا، مما يُظهر أداءً متميزًا في توليد الصور عالية الدقة، وتمثيل التفاصيل، والتكيف متعدد الأنماط. من خلال أخذ عينات مُحسَّن للضوضاء وتقنيات التوجيه بدون مُصنِّفات، يُمكن لـ Ovis-Image توليد صور طبيعية ومتماسكة ومُفصَّلة بدقة 1024×1024، داعمًا أنماطًا مُختلفة، بما في ذلك الواقعية، والسايبربانك، والأنمي، والخيال العلمي. تتوفر أوراق بحثية ذات صلة على [رابط الورقة البحثية ذات الصلة].Ovis-Image 7B: توليد النص إلى صورة باستخدام محول متعدد المقاييس".

الميزات الأساسية:

  • إنشاء أصلي عالي الدقة: يدعم إنشاء أصلي بدقة تصل إلى 1024×1024، مما يحقق نتائج واضحة ومفصلة دون الحاجة إلى نماذج إضافية فائقة الدقة.
  • النمذجة الدلالية متعددة المقاييس: بناءً على بنية ترميز المحول متعددة المقاييس، فإنها تأخذ في الاعتبار كل من التركيب العام وتفاصيل الملمس المحلي.
  • إعادة إنتاج التفاصيل عالية الجودة: أداء مستقر من حيث الشخصيات والمواد والإضاءة والتعقيد البيئي.
  • تنوع قوي عبر أنماط متعددة: يدعم بشكل أصلي العديد من الأنماط السائدة مثل الواقعية، والسايبربانك، والأنمي، والخيال العلمي، والرسوم التوضيحية.
  • قدرة توليد قابلة للتحكم بدرجة عالية: يتم تحقيق توليد دقيق وقابل للتحكم من خلال مقياس التوجيه وخطوات أخذ العينات والدقة والبذور العشوائية.
  • موازنة دقة الاستدلال والكفاءة: يدعم الاستدلال منخفض الذاكرة BF16، مع الاستفادة من فك تشفير FP32 لتحسين دقة الصورة النهائية.

يستخدم هذا البرنامج التعليمي Grado لنشر نموذج Ovis-Image 7B الأساسي، مع موارد الحوسبة "RTX_5090"، والتي يمكنها تحقيق إنشاء نص عالي الدقة 1024×1024 دون أي اختناقات في ذاكرة الفيديو/الذاكرة.

2. عرض التأثير

يؤدي جهاز Ovis-Image 7B أداءً استثنائيًا في المهام الأساسية:

  • إنشاء مشهد معقد: إنشاء صور طبيعية وسليمة منطقيًا من خلال مطالبات نصية مفصلة.
  • دعم الأنماط المتعددة: يمكنه إنشاء أنماط بصرية مختلفة مثل الواقعية، والسايبربانك، والأنمي، والخيال العلمي.
  • تفاصيل عالية الدقة: نسيج غني، وظلال، وإضاءة.
  • إمكانية التحكم: يمكن تعديل التأثير الناتج عن طريق تغيير عدد الخطوات ومقياس التوجيه والدقة.

3. خطوات التشغيل

1. ابدأ تشغيل الحاوية

بعد بدء تشغيل الحاوية، انقر فوق عنوان API للدخول إلى واجهة الويب

2. البدء

إذا ظهرت رسالة "بوابة غير صالحة"، فهذا يعني أن النموذج قيد التهيئة. نظرًا لكبر حجم النموذج، يُرجى الانتظار دقيقتين أو ثلاث دقائق ثم تحديث الصفحة.

وصف المعلمة

  • ارتفاع الصورة / العرض:إنشاء ارتفاع وعرض الصورة، بحجم خطوة 32.
  • عدد خطوات الاستدلالكلما زاد عدد الخطوات المولدة، أصبحت تفاصيل الصورة أكثر ثراءً.
  • مقياس التوجيهقوة موجه النص؛ كلما زادت القيمة، كلما اقتربت الصورة من الموجه.
  • بذرةتضمن البذرة العشوائية توليدًا قابلًا للتكرار.

معلومات الاستشهاد

معلومات الاستشهاد لهذا المشروع هي كما يلي:

@article{ovisimage7b,
  title={Ovis-Image 7B: Text-to-Image Generation with Multi-Scale Transformer},
  author={AIDC-AI Team},
  journal={arXiv preprint arXiv:2511.22982},
  year={2025}
}

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp