OmniGen2: استكشاف الجيل المتعدد الوسائط المتقدم
1. مقدمة البرنامج التعليمي

OmniGen2 هو نموذج توليد متعدد الوسائط مفتوح المصدر، أصدرته أكاديمية بكين للذكاء الاصطناعي (BAAI) في 16 يونيو 2025. يهدف إلى توفير حل موحد لمجموعة متنوعة من مهام التوليد، بما في ذلك توليد النص إلى صورة، وتحرير الصور، وتوليد السياق. بخلاف OmniGen v1، يصمم OmniGen2 مسارين مستقلين لفك التشفير لأنماط النص والصورة، باستخدام معلمات غير مشتركة ومجزئات صور منفصلة. يُمكّن هذا التصميم OmniGen2 من البناء على نماذج فهم متعدد الوسائط الحالية دون الحاجة إلى إعادة تكييف مدخلات VAE، وبالتالي الحفاظ على قدرات توليد النص الأصلية. يكمن ابتكاره الأساسي في بنية المسار المزدوج وآلية التأمل الذاتي، والتي أصبحت معيارًا جديدًا لنماذج متعددة الوسائط مفتوحة المصدر الحالية. نتائج البحث ذات الصلة هي:OmniGen2: الاستكشاف نحو توليد متعدد الوسائط المتقدم".
تستخدم موارد الحوسبة في هذا البرنامج التعليمي بطاقة RTX A6000 واحدة، والمطالبات باللغة الإنجليزية أكثر فعالية حاليًا.
2. عرض التأثير
بعض الأمثلة على التأثيرات باستخدام OmniGen2:


3. خطوات التشغيل
1. ابدأ تشغيل الحاوية

2. خطوات الاستخدام
إذا تم عرض "بوابة سيئة"، فهذا يعني أن النموذج قيد التهيئة. نظرًا لأن النموذج كبير الحجم، يرجى الانتظار لمدة 2-3 دقائق وتحديث الصفحة.
المثال الأول هو وصف الصورة، والمثالان الثاني والثالث هما صور مرئية، والأمثلة المتبقية هي تحرير الصور.


المعلمات المحددة:
- الارتفاع: الارتفاع.
- العرض: العرض.
- مقياس التوجيه النصي: مقياس التوجيه النصي.
- مقياس توجيه الصورة: مقياس توجيه الصورة.
- بدء نطاق CFG: بدء النطاق.
- نهاية نطاق CFG: نهاية النطاق.
- المجدول: المجدول.
- خطوات الاستدلال: خطوات الاستدلال.
- عدد الصور لكل مطالبة: عدد الصور لكل مطالبة.
- بذرة: بذرة.
- max_input_image_side_length: الحد الأقصى لطول جانب الصورة المدخلة.
- max_pixels: الحد الأقصى لعدد البكسلات.
نتيجة

4. المناقشة
🖌️ إذا رأيت مشروعًا عالي الجودة، فيرجى ترك رسالة في الخلفية للتوصية به! بالإضافة إلى ذلك، قمنا أيضًا بتأسيس مجموعة لتبادل الدروس التعليمية. مرحبًا بالأصدقاء لمسح رمز الاستجابة السريعة وإضافة [برنامج تعليمي SD] للانضمام إلى المجموعة لمناقشة المشكلات الفنية المختلفة ومشاركة نتائج التطبيق↓

معلومات الاستشهاد
معلومات الاستشهاد لهذا المشروع هي كما يلي:
@article{wu2025omnigen2,
title={OmniGen2: Exploration to Advanced Multimodal Generation},
author={Chenyuan Wu and Pengfei Zheng and Ruiran Yan and Shitao Xiao and Xin Luo and Yueze Wang and Wanli Li and Xiyan Jiang and Yexin Liu and Junjie Zhou and Ze Liu and Ziyi Xia and Chaofan Li and Haoge Deng and Jiahao Wang and Kun Luo and Bo Zhang and Defu Lian and Xinlong Wang and Zhongyuan Wang and Tiejun Huang and Zheng Liu},
journal={arXiv preprint arXiv:2506.18871},
year={2025}
}