HyperAIHyperAI
منذ 3 أشهر

CogView2: أسرع وأفضل توليد صور من نص من خلال التحولات الهرمية

Ming Ding, Wendi Zheng, Wenyi Hong, Jie Tang
CogView2: أسرع وأفضل توليد صور من نص من خلال التحولات الهرمية
الملخص

يُعاني تطوير نماذج النص إلى الصورة القائمة على المحولات (transformer) من بطء عملية التوليد وتعقيد التوليد للصور عالية الدقة. في هذا العمل، نقترح حلًا يعتمد على المحولات الهرمية وتوليد ذاتي متوازي موضعي. قمنا بتدريب مسبق لمحول بحجم 6 مليار معلمة باستخدام مهمة ذاتية مراقبة بسيطة ومرنة تُسمى نموذج اللغة العام المتعدد الوسائط (CogLM)، ثم قمنا بتعديل النموذج بدقة لتحقيق تحسين سريع للدقة. ويُظهر النظام الجديد لتحويل النص إلى الصورة، CogView2، أداءً تنافسيًا للغاية مقارنةً بالنماذج الرائدة المعاصرة مثل DALL-E-2، كما يدعم بشكل طبيعي التحرير التفاعلي الموجه بالنص على الصور.