HyperAIHyperAI
منذ 4 أشهر

CogView: تسيير إنشاء الصور من النص عبر التحويلات

Ming Ding; Zhuoyi Yang; Wenyi Hong; Wendi Zheng; Chang Zhou; Da Yin; Junyang Lin; Xu Zou; Zhou Shao; Hongxia Yang; Jie Tang
CogView: تسيير إنشاء الصور من النص عبر التحويلات
الملخص

توليد الصور من النص في المجال العام كان لفترة طويلة مشكلة مفتوحة، تتطلب نموذجًا توليديًا قويًا وفهمًا متعدد الوسائط. نقترح نظام CogView، وهو محول (Transformer) بحجم 4 مليارات معلمة مع مُحَوِّل VQ-VAE لتعزيز هذه المشكلة. كما نوضح استراتيجيات التعديل الدقيق (finetuning) لمهام مختلفة لاحقة، مثل تعلم الأسلوب، والتحليق الفائق (super-resolution)، وتقييم النصوص والصور، وتصميم الأزياء، بالإضافة إلى طرق لاستقرار التدريب المسبق، مثل القضاء على خسائر NaN. حقق CogView أفضل مؤشر تباين فريشيت (FID) على مجموعة بيانات MS COCO المشوشة، مما يتفوق على النماذج السابقة المستندة إلى GAN وعمل مشابه حديث هو DALL-E.