ميوس: إنشاء الصور من النص من خلال المحولات التوليدية المقنعة

نقدّم نموذج Muse، وهو نموذج تحويلي (Transformer) يحول النص إلى صورة، يحقق أداءً متميزًا في توليد الصور مع كونه أكثر كفاءة بشكل ملحوظ مقارنةً بالنماذج التباينية (diffusion) أو النماذج التسلسلية (autoregressive). يتم تدريب Muse على مهمة نمذجة مُقنّعة في فضاء الرموز المنفصلة (discrete token space): بالاعتماد على التضمين النصي المستخرج من نموذج لغوي كبير مُدرّب مسبقًا (LLM)، يُدرّب Muse على توقع الرموز الصورية المُقنّعة عشوائيًا. مقارنةً بالنماذج التباينية في فضاء البكسل، مثل Imagen وDALL-E 2، فإن Muse أكثر كفاءة بشكل كبير بفضل استخدام الرموز المنفصلة واحتياجه لعدد أقل من تكرارات العينة؛ أما مقارنةً بالنماذج التسلسلية، مثل Parti، فإن Muse أكثر كفاءة بفضل استخدام التفكيك المتوازٍ (parallel decoding). يُمكّن استخدام نموذج لغوي كبير مُدرّب مسبقًا من فهم دقيق للغة، مما ينعكس في توليد صور عالية الدقة وفهم المفاهيم البصرية مثل الكائنات، والعلاقات المكانية، والوضعية (pose)، والكمية (cardinality) وغيرها. يحقق نموذج Muse بحجم 900 مليون معلمة أداءً جديدًا في الصدارة (SOTA) على مجموعة CC3M، بدرجة FID تبلغ 6.06. بينما يحقق نموذج Muse بحجم 3 مليارات معلمة درجة FID قدرها 7.88 في تقييم صفر-مُدرب (zero-shot) على مجموعة COCO، بالإضافة إلى درجة CLIP تبلغ 0.32. كما يتيح Muse مباشرةً تنفيذ عدد من تطبيقات تحرير الصور دون الحاجة إلى تدريب مُعدّل أو عكس النموذج (fine-tune أو invert): مثل التعبئة (inpainting)، والتمديد (outpainting)، وتحرير الصور دون استخدام قناع (mask-free editing). المزيد من النتائج متاحة على: https://muse-model.github.io