HyperAI
منذ 15 أيام

OmniGen2: استكشاف التوليد متعدد الوسائط المتقدم

Chenyuan Wu, Pengfei Zheng, Ruiran Yan, Shitao Xiao, Xin Luo, Yueze Wang, Wanli Li, Xiyan Jiang, Yexin Liu, Junjie Zhou, Ze Liu, Ziyi Xia, Chaofan Li, Haoge Deng, Jiahao Wang, Kun Luo, Bo Zhang, Defu Lian, Xinlong Wang, Zhongyuan Wang, Tiejun Huang, Zheng Liu
OmniGen2: استكشاف التوليد متعدد الوسائط المتقدم
الملخص

في هذا العمل، نقدم OmniGen2، وهو نموذج تولي متعدد ومصدر مفتوح مصمم لتقديم حل موحد للمهام التوليدية المتنوعة، بما في ذلك تحويل النص إلى صورة، وتحرير الصور، والتوليد السياقي. على عكس OmniGen الإصدار الأول (v1)، يحتوي OmniGen2 على مسارات فك شفرة منفصلة للنص والصور، باستخدام معلمات غير مشتركة ورمز صورة مستقل (decoupled image tokenizer). هذا التصميم يتيح لـ OmniGen2 البناء على نماذج الفهم المتعددة الأوضاع الموجودة دون الحاجة لإعادة تكييف مدخلات VAE، مما يحافظ على قدرات التوليد النصي الأصلية. لتسهيل تدريب OmniGen2، طورنا أنابيب بناء بيانات شاملة تشمل بيانات تحرير الصور والتوليد السياقي. بالإضافة إلى ذلك، نقدم آلية انعكاس مخصصة لمهمات توليد الصور ونقوم بتحضير مجموعة بيانات انعكاس خاصة تعتمد على OmniGen2. رغم حجم المعلمات النسبي المعتدل، فإن OmniGen2 يحقق نتائج تنافسية في العديد من مقاييس المهام، بما في ذلك تحويل النص إلى صورة وتحرير الصور. لتقييم المهام السياقية بشكل أكبر، والتي تُعرف أيضًا بالمهام المحركة بالموضوع (subject-driven tasks)، نقدم مقاييس جديدة باسم OmniContext. يحقق OmniGen2 أداءً رائدًا بين النماذج ذات المصدر المفتوح من حيث الثبات. سنقوم بإطلاق نماذجنا وكود التدريب ومجموعات البيانات وأنابيب بناء البيانات لدعم البحث المستقبلي في هذا المجال. صفحة المشروع: https://vectorspacelab.github.io/OmniGen2؛ رابط GitHub: https://github.com/VectorSpaceLab/OmniGen2