HyperAIHyperAI

Command Palette

Search for a command to run...

OmniGen2: استكشاف الجيل المتعدد الوسائط المتقدم

Date

منذ 7 أشهر

Size

1.62 GB

License

Apache 2.0

Paper URL

2506.18871

1. مقدمة البرنامج التعليمي

يبني

OmniGen2 هو نموذج توليدي متعدد الوسائط مفتوح المصدر، أطلقته أكاديمية بكين للذكاء الاصطناعي (BAAI) في 16 يونيو 2025. يهدف إلى توفير حل موحد لمختلف مهام التوليد، بما في ذلك تحويل النصوص إلى صور، وتحرير الصور، وتوليد السياق. على عكس OmniGen v1، يصمم OmniGen2 مسارين مستقلين لفك تشفير النصوص والصور، باستخدام معلمات غير مشتركة ومجزئات صور منفصلة. يتيح هذا التصميم إمكانية بناء OmniGen2 على نماذج فهم الوسائط المتعددة الحالية دون الحاجة إلى إعادة التكيف مع مدخلات VAE، وبالتالي الحفاظ على قدراته الأصلية في توليد النصوص. تكمن ابتكاراته الأساسية في بنيته ثنائية المسار وآلية الانعكاس الذاتي، مما يضع معيارًا جديدًا لنماذج الوسائط المتعددة مفتوحة المصدر الحالية. تتوفر أوراق بحثية ذات صلة. OmniGen2: الاستكشاف نحو توليد متعدد الوسائط المتقدم .

تستخدم موارد الحوسبة في هذا البرنامج التعليمي بطاقة RTX A6000 واحدة، والمطالبات باللغة الإنجليزية أكثر فعالية حاليًا.

2. عرض التأثير

بعض الأمثلة على التأثيرات باستخدام OmniGen2:

عرض توضيحي لوظيفة تحرير الصور في OmniGen2
عرض توضيحي لميزة إنشاء السياق في OmniGen2

3. خطوات التشغيل

1. ابدأ تشغيل الحاوية

2. خطوات الاستخدام

إذا تم عرض "بوابة سيئة"، فهذا يعني أن النموذج قيد التهيئة. نظرًا لأن النموذج كبير الحجم، يرجى الانتظار لمدة 2-3 دقائق وتحديث الصفحة.

المثال الأول هو وصف الصورة، والمثالان الثاني والثالث هما صور مرئية، والأمثلة المتبقية هي تحرير الصور.

المعلمات المحددة:

  • الارتفاع: الارتفاع.
  • العرض: العرض.
  • مقياس التوجيه النصي: مقياس التوجيه النصي.
  • مقياس توجيه الصورة: مقياس توجيه الصورة.
  • بدء نطاق CFG: بدء النطاق.
  • نهاية نطاق CFG: نهاية النطاق.
  • المجدول: المجدول.
  • خطوات الاستدلال: خطوات الاستدلال.
  • عدد الصور لكل مطالبة: عدد الصور لكل مطالبة.
  • بذرة: بذرة.
  • max_input_image_side_length: الحد الأقصى لطول جانب الصورة المدخلة.
  • max_pixels: الحد الأقصى لعدد البكسلات.

نتيجة

4. المناقشة

🖌️ إذا رأيت مشروعًا عالي الجودة، فيرجى ترك رسالة في الخلفية للتوصية به! بالإضافة إلى ذلك، قمنا أيضًا بتأسيس مجموعة لتبادل الدروس التعليمية. مرحبًا بالأصدقاء لمسح رمز الاستجابة السريعة وإضافة [برنامج تعليمي SD] للانضمام إلى المجموعة لمناقشة المشكلات الفنية المختلفة ومشاركة نتائج التطبيق↓

معلومات الاستشهاد

معلومات الاستشهاد لهذا المشروع هي كما يلي:

@article{wu2025omnigen2,
  title={OmniGen2: Exploration to Advanced Multimodal Generation},
  author={Chenyuan Wu and Pengfei Zheng and Ruiran Yan and Shitao Xiao and Xin Luo and Yueze Wang and Wanli Li and Xiyan Jiang and Yexin Liu and Junjie Zhou and Ze Liu and Ziyi Xia and Chaofan Li and Haoge Deng and Jiahao Wang and Kun Luo and Bo Zhang and Defu Lian and Xinlong Wang and Zhongyuan Wang and Tiejun Huang and Zheng Liu},
  journal={arXiv preprint arXiv:2506.18871},
  year={2025}
}

Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp