منذ 6 أشهر

الملخص

يُعاني تطوير نماذج النص إلى الصورة القائمة على المحولات (transformer) من بطء عملية التوليد وتعقيد التوليد للصور عالية الدقة. في هذا العمل، نقترح حلًا يعتمد على المحولات الهرمية وتوليد ذاتي متوازي موضعي. قمنا بتدريب مسبق لمحول بحجم 6 مليار معلمة باستخدام مهمة ذاتية مراقبة بسيطة ومرنة تُسمى نموذج اللغة العام المتعدد الوسائط (CogLM)، ثم قمنا بتعديل النموذج بدقة لتحقيق تحسين سريع للدقة. ويُظهر النظام الجديد لتحويل النص إلى الصورة، CogView2، أداءً تنافسيًا للغاية مقارنةً بالنماذج الرائدة المعاصرة مثل DALL-E-2، كما يدعم بشكل طبيعي التحرير التفاعلي الموجه بالنص على الصور.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار