HyperAIHyperAI

Command Palette

Search for a command to run...

CogView: تسيير إنشاء الصور من النص عبر التحويلات

Ming Ding†, Zhuoyi Yang†, Wenyi Hong‡, Wendi Zheng†, Chang Zhou†, Da Yin†, Junyang Lin‡, Xu Zou†, Zhou Shao♠, Hongxia Yang‡, Jie Tang†♠

الملخص

توليد الصور من النص في المجال العام كان لفترة طويلة مشكلة مفتوحة، تتطلب نموذجًا توليديًا قويًا وفهمًا متعدد الوسائط. نقترح نظام CogView، وهو محول (Transformer) بحجم 4 مليارات معلمة مع مُحَوِّل VQ-VAE لتعزيز هذه المشكلة. كما نوضح استراتيجيات التعديل الدقيق (finetuning) لمهام مختلفة لاحقة، مثل تعلم الأسلوب، والتحليق الفائق (super-resolution)، وتقييم النصوص والصور، وتصميم الأزياء، بالإضافة إلى طرق لاستقرار التدريب المسبق، مثل القضاء على خسائر NaN. حقق CogView أفضل مؤشر تباين فريشيت (FID) على مجموعة بيانات MS COCO المشوشة، مما يتفوق على النماذج السابقة المستندة إلى GAN وعمل مشابه حديث هو DALL-E.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp