Command Palette
Search for a command to run...
CogView: تسيير إنشاء الصور من النص عبر التحويلات
CogView: تسيير إنشاء الصور من النص عبر التحويلات
Ming Ding†, Zhuoyi Yang†, Wenyi Hong‡, Wendi Zheng†, Chang Zhou†, Da Yin†, Junyang Lin‡, Xu Zou†, Zhou Shao♠, Hongxia Yang‡, Jie Tang†♠
الملخص
توليد الصور من النص في المجال العام كان لفترة طويلة مشكلة مفتوحة، تتطلب نموذجًا توليديًا قويًا وفهمًا متعدد الوسائط. نقترح نظام CogView، وهو محول (Transformer) بحجم 4 مليارات معلمة مع مُحَوِّل VQ-VAE لتعزيز هذه المشكلة. كما نوضح استراتيجيات التعديل الدقيق (finetuning) لمهام مختلفة لاحقة، مثل تعلم الأسلوب، والتحليق الفائق (super-resolution)، وتقييم النصوص والصور، وتصميم الأزياء، بالإضافة إلى طرق لاستقرار التدريب المسبق، مثل القضاء على خسائر NaN. حقق CogView أفضل مؤشر تباين فريشيت (FID) على مجموعة بيانات MS COCO المشوشة، مما يتفوق على النماذج السابقة المستندة إلى GAN وعمل مشابه حديث هو DALL-E.