منذ 8 أشهر

الملخص

تم استخدام نماذج تحويل النص إلى الصورة (Text-to-Image Models - T2I) مثل StableDiffusion لإنشاء صور عالية الجودة للأشخاص. ومع ذلك، بسبب الطبيعة العشوائية لعملية التوليد، يظهر الشخص بمظهر مختلف، مثل الوضعية والوجه والملابس، حتى عند استخدام نفس الدليل النصي. يؤدي هذا عدم التناسق في المظهر إلى جعل نماذج T2I غير مناسبة لنقل الوضعيات. نعالج هذه المشكلة من خلال اقتراح نموذج توزيع متعدد الوسائط يقبل الدلائل النصية والوضعيّة والبصرية. يعتبر نموذجنا أول طريقة موحدة تقوم بجميع مهام صور الأشخاص - التوليد ونقل الوضعيات والتحرير بدون قناع. كما أننا رائدون في استخدام معلمات نموذج الجسم ثلاثي الأبعاد ذات البعد الصغير مباشرةً لإظهار قدرة جديدة - التداخل المتزامن للوضعيات وزاوية الكاميرا مع الحفاظ على مظهر الشخص.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار