HyperAIHyperAI

Command Palette

Search for a command to run...

ميوس: إنشاء الصور من النص من خلال المحولات التوليدية المقنعة

الملخص

نقدّم نموذج Muse، وهو نموذج تحويلي (Transformer) يحول النص إلى صورة، يحقق أداءً متميزًا في توليد الصور مع كونه أكثر كفاءة بشكل ملحوظ مقارنةً بالنماذج التباينية (diffusion) أو النماذج التسلسلية (autoregressive). يتم تدريب Muse على مهمة نمذجة مُقنّعة في فضاء الرموز المنفصلة (discrete token space): بالاعتماد على التضمين النصي المستخرج من نموذج لغوي كبير مُدرّب مسبقًا (LLM)، يُدرّب Muse على توقع الرموز الصورية المُقنّعة عشوائيًا. مقارنةً بالنماذج التباينية في فضاء البكسل، مثل Imagen وDALL-E 2، فإن Muse أكثر كفاءة بشكل كبير بفضل استخدام الرموز المنفصلة واحتياجه لعدد أقل من تكرارات العينة؛ أما مقارنةً بالنماذج التسلسلية، مثل Parti، فإن Muse أكثر كفاءة بفضل استخدام التفكيك المتوازٍ (parallel decoding). يُمكّن استخدام نموذج لغوي كبير مُدرّب مسبقًا من فهم دقيق للغة، مما ينعكس في توليد صور عالية الدقة وفهم المفاهيم البصرية مثل الكائنات، والعلاقات المكانية، والوضعية (pose)، والكمية (cardinality) وغيرها. يحقق نموذج Muse بحجم 900 مليون معلمة أداءً جديدًا في الصدارة (SOTA) على مجموعة CC3M، بدرجة FID تبلغ 6.06. بينما يحقق نموذج Muse بحجم 3 مليارات معلمة درجة FID قدرها 7.88 في تقييم صفر-مُدرب (zero-shot) على مجموعة COCO، بالإضافة إلى درجة CLIP تبلغ 0.32. كما يتيح Muse مباشرةً تنفيذ عدد من تطبيقات تحرير الصور دون الحاجة إلى تدريب مُعدّل أو عكس النموذج (fine-tune أو invert): مثل التعبئة (inpainting)، والتمديد (outpainting)، وتحرير الصور دون استخدام قناع (mask-free editing). المزيد من النتائج متاحة على: https://muse-model.github.io


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp