التاريخ

منذ 7 أشهر

الوسوم

توليد الصور

RTX 5090

رابط الورقة البحثية

2511.22982

الترخيص

Apache 2.0

GitHub

AIDC-AI/Ovis-Image317

1. مقدمة البرنامج التعليمي

يُعدّ Ovis-Image نظامًا عالي الجودة لتحويل النصوص إلى صور (T2I)، مبنيًا على نموذج Ovis-Image-7B عالي الدقة لتحويل النصوص إلى صور، والذي أصدره فريق AIDC-AI في نوفمبر 2025. يستخدم هذا النظام مُشفّر Transformer متعدد المقاييس وبنية توليدية ذاتية التراجع، مما يُظهر أداءً متميزًا في توليد الصور عالية الدقة، وتمثيل التفاصيل، والتكيف مع أنماط متعددة. من خلال تقنيات أخذ عينات الضوضاء المُحسّنة وتقنيات التوجيه الخالية من المُصنِّف، يستطيع Ovis-Image توليد صور طبيعية ومتماسكة وغنية بالتفاصيل بدقة 1024×1024، ويدعم أنماطًا متنوعة تشمل الواقعية، والسايبربانك، والأنمي، والخيال العلمي. تتوفر أوراق بحثية ذات صلة. Ovis-Image 7B: توليد النص إلى صورة باستخدام محول متعدد المقاييس .

الميزات الأساسية:

إنشاء أصلي عالي الدقة: يدعم إنشاء أصلي بدقة تصل إلى 1024×1024، مما يحقق نتائج واضحة ومفصلة دون الحاجة إلى نماذج إضافية فائقة الدقة.
النمذجة الدلالية متعددة المقاييس: بناءً على بنية ترميز المحول متعددة المقاييس، فإنها تأخذ في الاعتبار كل من التركيب العام وتفاصيل الملمس المحلي.
إعادة إنتاج التفاصيل عالية الجودة: أداء مستقر من حيث الشخصيات والمواد والإضاءة والتعقيد البيئي.
تنوع قوي عبر أنماط متعددة: يدعم بشكل أصلي العديد من الأنماط السائدة مثل الواقعية، والسايبربانك، والأنمي، والخيال العلمي، والرسوم التوضيحية.
قدرة توليد قابلة للتحكم بدرجة عالية: يتم تحقيق توليد دقيق وقابل للتحكم من خلال مقياس التوجيه وخطوات أخذ العينات والدقة والبذور العشوائية.
موازنة دقة الاستدلال والكفاءة: يدعم الاستدلال منخفض الذاكرة BF16، مع الاستفادة من فك تشفير FP32 لتحسين دقة الصورة النهائية.

يستخدم هذا البرنامج التعليمي Grado لنشر نموذج Ovis-Image 7B الأساسي، مع موارد الحوسبة "RTX_5090"، والتي يمكنها تحقيق إنشاء نص عالي الدقة 1024×1024 دون أي اختناقات في ذاكرة الفيديو/الذاكرة.

2. عرض التأثير

يؤدي جهاز Ovis-Image 7B أداءً استثنائيًا في المهام الأساسية:

إنشاء مشهد معقد: إنشاء صور طبيعية وسليمة منطقيًا من خلال مطالبات نصية مفصلة.
دعم الأنماط المتعددة: يمكنه إنشاء أنماط بصرية مختلفة مثل الواقعية، والسايبربانك، والأنمي، والخيال العلمي.
تفاصيل عالية الدقة: نسيج غني، وظلال، وإضاءة.
إمكانية التحكم: يمكن تعديل التأثير الناتج عن طريق تغيير عدد الخطوات ومقياس التوجيه والدقة.

3. خطوات التشغيل

1. ابدأ تشغيل الحاوية

بعد بدء تشغيل الحاوية، انقر فوق عنوان API للدخول إلى واجهة الويب

2. البدء

إذا ظهرت رسالة "بوابة غير صالحة"، فهذا يعني أن النموذج قيد التهيئة. نظرًا لكبر حجم النموذج، يُرجى الانتظار دقيقتين أو ثلاث دقائق ثم تحديث الصفحة.

وصف المعلمة

ارتفاع الصورة / العرض:إنشاء ارتفاع وعرض الصورة، بحجم خطوة 32.
عدد خطوات الاستدلالكلما زاد عدد الخطوات المولدة، أصبحت تفاصيل الصورة أكثر ثراءً.
مقياس التوجيهقوة موجه النص؛ كلما زادت القيمة، كلما اقتربت الصورة من الموجه.
بذرةتضمن البذرة العشوائية توليدًا قابلًا للتكرار.

معلومات الاستشهاد

معلومات الاستشهاد لهذا المشروع هي كما يلي:

@article{ovisimage7b,
  title={Ovis-Image 7B: Text-to-Image Generation with Multi-Scale Transformer},
  author={AIDC-AI Team},
  journal={arXiv preprint arXiv:2511.22982},
  year={2025}
}

تم المساهمة في هذا الدفتر من قبل مستخدمي المجتمع وهو مخصص لأغراض تعليمية وإعلامية فقط. إذا كان أي محتوى ينطوي على انتهاك لحقوق النشر، يرجى الاتصال بنا على [email protected] للمراجعة والإزالة الفورية.

نظرة عامة على Notebook

المستوى

مبتدئ

الموضوع

الرؤية الحاسوبية الذكاء الاصطناعي التوليدي

نموذج صورة ERNIE-Image-Turbo

منذ 2 أشهر

Z-Image: نموذج الصور النصي مفتوح المصدر من شركة علي بابا، ويحتوي على 6 مليارات مُعامل.

منذ 4 أشهر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

HyperAI

شغّل هذا الـNotebook ناقش على Discord