HyperAIHyperAI

Command Palette

Search for a command to run...

CogView2: أسرع وأفضل توليد صور من نص من خلال التحولات الهرمية

Ming Ding Wendi Zheng Wenyi Hong Jie Tang

الملخص

يُعاني تطوير نماذج النص إلى الصورة القائمة على المحولات (transformer) من بطء عملية التوليد وتعقيد التوليد للصور عالية الدقة. في هذا العمل، نقترح حلًا يعتمد على المحولات الهرمية وتوليد ذاتي متوازي موضعي. قمنا بتدريب مسبق لمحول بحجم 6 مليار معلمة باستخدام مهمة ذاتية مراقبة بسيطة ومرنة تُسمى نموذج اللغة العام المتعدد الوسائط (CogLM)، ثم قمنا بتعديل النموذج بدقة لتحقيق تحسين سريع للدقة. ويُظهر النظام الجديد لتحويل النص إلى الصورة، CogView2، أداءً تنافسيًا للغاية مقارنةً بالنماذج الرائدة المعاصرة مثل DALL-E-2، كما يدعم بشكل طبيعي التحرير التفاعلي الموجه بالنص على الصور.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
CogView2: أسرع وأفضل توليد صور من نص من خلال التحولات الهرمية | مستندات | HyperAI