HyperAI
Back to Headlines

اكتشاف OmniGen2: نموذج مفتوح المصدر متقدم لأعمال التوليد المتعددة الوسائط

منذ 8 أيام

في هذا المشروع، تم تقديم OmniGen2، وهو نموذج مفتوح المصدر مصمم للتعامل مع مجموعة متنوعة من مهام التوليد، مثل تحويل النص إلى صورة، تعديل الصور، والتوليد السياقي. يختلف OmniGen2 عن إصداره السابق، OmniGen، في أنه يستخدم مسارات تفكيش منفصلة للنص والصور، لكل منها معلماتها الخاصة ومحلل صور مستقل. هذا التصميم يتيح له العمل بكفاءة مع النماذج المتعددة الأوضاع الموجودة دون الحاجة إلى تغيير المدخلات المطلوبة لـ VAEs (Autoencoders متغيرة)، مما يحافظ على قدرته القوية على توليد النصوص. لتدريب OmniGen2، تم بناء أنابيب بيانات كاملة تتضمن بيانات لمهام تعديل الصور والتوليد السياقي. كما تم إنشاء آلية للانعكاس خصيصاً لمهام توليد الصور، مع بناء مجموعة بيانات للانعكاس لهذا الغرض. رغم أن OmniGen2 ليس كبير الحجم من حيث عدد المعلمات، فإنه يحقق أداءً جيدًا في مهام مثل تحويل النص إلى صورة وتعديل الصور. فيما يتعلق بالتوليد السياقي، الذي يُعرف أيضًا بمهام التوليد المحركة بالموضوع، فقد قمنا بإنشاء معيار جديد يُدعى OmniContext. وفقًا لهذا المعيار، يحقق OmniGen2 أفضل مستوى من الاستقرار بين النماذج المفتوحة المصدر. تهدف فريق البحث إلى مشاركة النماذج، وكود التدريب، ومجموعات البيانات، وأنابيب البيانات لدعم الأبحاث المستقبلية في هذا المجال. يمكن الوصول إلى صفحة المشروع على الرابط التالي: https://vectorspacelab.github.io/OmniGen2، والرمز المصدري متاح على منصة GitHub عبر الرابط: https://github.com/VectorSpaceLab/OmniGen2.

Related Links