منذ 2 أشهر
UPGPT: نموذج التوسع الشامل لتوليد وتحرير صور الأشخاص ونقل الوضعية
Soon Yau Cheong; Armin Mustafa; Andrew Gilbert

الملخص
تم استخدام نماذج تحويل النص إلى الصورة (Text-to-Image Models - T2I) مثل StableDiffusion لإنشاء صور عالية الجودة للأشخاص. ومع ذلك، بسبب الطبيعة العشوائية لعملية التوليد، يظهر الشخص بمظهر مختلف، مثل الوضعية والوجه والملابس، حتى عند استخدام نفس الدليل النصي. يؤدي هذا عدم التناسق في المظهر إلى جعل نماذج T2I غير مناسبة لنقل الوضعيات. نعالج هذه المشكلة من خلال اقتراح نموذج توزيع متعدد الوسائط يقبل الدلائل النصية والوضعيّة والبصرية. يعتبر نموذجنا أول طريقة موحدة تقوم بجميع مهام صور الأشخاص - التوليد ونقل الوضعيات والتحرير بدون قناع. كما أننا رائدون في استخدام معلمات نموذج الجسم ثلاثي الأبعاد ذات البعد الصغير مباشرةً لإظهار قدرة جديدة - التداخل المتزامن للوضعيات وزاوية الكاميرا مع الحفاظ على مظهر الشخص.