Command Palette
Search for a command to run...
OmniGen2: استكشاف الجيل المتعدد الوسائط المتقدم
Date
Size
1.62 GB
Tags
License
Apache 2.0
GitHub
Paper URL
1. مقدمة البرنامج التعليمي

OmniGen2 هو نموذج توليدي متعدد الوسائط مفتوح المصدر، أطلقته أكاديمية بكين للذكاء الاصطناعي (BAAI) في 16 يونيو 2025. يهدف إلى توفير حل موحد لمختلف مهام التوليد، بما في ذلك تحويل النصوص إلى صور، وتحرير الصور، وتوليد السياق. على عكس OmniGen v1، يصمم OmniGen2 مسارين مستقلين لفك تشفير النصوص والصور، باستخدام معلمات غير مشتركة ومجزئات صور منفصلة. يتيح هذا التصميم إمكانية بناء OmniGen2 على نماذج فهم الوسائط المتعددة الحالية دون الحاجة إلى إعادة التكيف مع مدخلات VAE، وبالتالي الحفاظ على قدراته الأصلية في توليد النصوص. تكمن ابتكاراته الأساسية في بنيته ثنائية المسار وآلية الانعكاس الذاتي، مما يضع معيارًا جديدًا لنماذج الوسائط المتعددة مفتوحة المصدر الحالية. تتوفر أوراق بحثية ذات صلة. OmniGen2: الاستكشاف نحو توليد متعدد الوسائط المتقدم .
تستخدم موارد الحوسبة في هذا البرنامج التعليمي بطاقة RTX A6000 واحدة، والمطالبات باللغة الإنجليزية أكثر فعالية حاليًا.
2. عرض التأثير
بعض الأمثلة على التأثيرات باستخدام OmniGen2:


3. خطوات التشغيل
1. ابدأ تشغيل الحاوية

2. خطوات الاستخدام
إذا تم عرض "بوابة سيئة"، فهذا يعني أن النموذج قيد التهيئة. نظرًا لأن النموذج كبير الحجم، يرجى الانتظار لمدة 2-3 دقائق وتحديث الصفحة.
المثال الأول هو وصف الصورة، والمثالان الثاني والثالث هما صور مرئية، والأمثلة المتبقية هي تحرير الصور.


المعلمات المحددة:
- الارتفاع: الارتفاع.
- العرض: العرض.
- مقياس التوجيه النصي: مقياس التوجيه النصي.
- مقياس توجيه الصورة: مقياس توجيه الصورة.
- بدء نطاق CFG: بدء النطاق.
- نهاية نطاق CFG: نهاية النطاق.
- المجدول: المجدول.
- خطوات الاستدلال: خطوات الاستدلال.
- عدد الصور لكل مطالبة: عدد الصور لكل مطالبة.
- بذرة: بذرة.
- max_input_image_side_length: الحد الأقصى لطول جانب الصورة المدخلة.
- max_pixels: الحد الأقصى لعدد البكسلات.
نتيجة

4. المناقشة
🖌️ إذا رأيت مشروعًا عالي الجودة، فيرجى ترك رسالة في الخلفية للتوصية به! بالإضافة إلى ذلك، قمنا أيضًا بتأسيس مجموعة لتبادل الدروس التعليمية. مرحبًا بالأصدقاء لمسح رمز الاستجابة السريعة وإضافة [برنامج تعليمي SD] للانضمام إلى المجموعة لمناقشة المشكلات الفنية المختلفة ومشاركة نتائج التطبيق↓

معلومات الاستشهاد
معلومات الاستشهاد لهذا المشروع هي كما يلي:
@article{wu2025omnigen2,
title={OmniGen2: Exploration to Advanced Multimodal Generation},
author={Chenyuan Wu and Pengfei Zheng and Ruiran Yan and Shitao Xiao and Xin Luo and Yueze Wang and Wanli Li and Xiyan Jiang and Yexin Liu and Junjie Zhou and Ze Liu and Ziyi Xia and Chaofan Li and Haoge Deng and Jiahao Wang and Kun Luo and Bo Zhang and Defu Lian and Xinlong Wang and Zhongyuan Wang and Tiejun Huang and Zheng Liu},
journal={arXiv preprint arXiv:2506.18871},
year={2025}
}Build AI with AI
From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.