الملخص

توليد الصور من النص في المجال العام كان لفترة طويلة مشكلة مفتوحة، تتطلب نموذجًا توليديًا قويًا وفهمًا متعدد الوسائط. نقترح نظام CogView، وهو محول (Transformer) بحجم 4 مليارات معلمة مع مُحَوِّل VQ-VAE لتعزيز هذه المشكلة. كما نوضح استراتيجيات التعديل الدقيق (finetuning) لمهام مختلفة لاحقة، مثل تعلم الأسلوب، والتحليق الفائق (super-resolution)، وتقييم النصوص والصور، وتصميم الأزياء، بالإضافة إلى طرق لاستقرار التدريب المسبق، مثل القضاء على خسائر NaN. حقق CogView أفضل مؤشر تباين فريشيت (FID) على مجموعة بيانات MS COCO المشوشة، مما يتفوق على النماذج السابقة المستندة إلى GAN وعمل مشابه حديث هو DALL-E.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار