HyperAIHyperAI
منذ 17 أيام

إلى توليد وتعديل صور الوجه الموجهة بالنص في العالم المفتوح

Weihao Xia, Yujiu Yang, Jing-Hao Xue, Baoyuan Wu
إلى توليد وتعديل صور الوجه الموجهة بالنص في العالم المفتوح
الملخص

الأساليب الحالية لتوليد الصور الموجهة بالنص قادرة فقط على إنتاج نتائج ذات جودة محدودة بحد أقصى دقة تبلغ \mbox{$\text{256}^2$}، كما أن التعليمات النصية محدودة في مجموعة نصية صغيرة. في هذا العمل، نقترح إطارًا موحدًا لتوليد الصور البشرية وتعديلها، يُنتج صورًا متنوعة وعالية الجودة بحلّة غير مسبوقة تبلغ 1024 من مدخلات متعددة الوسائط. وبشكل أكثر أهمية، يدعم منهجنا السيناريوهات المفتوحة، بما في ذلك الصور والنصوص، دون الحاجة إلى أي إعادة تدريب أو ضبط دقيق أو معالجة ما بعدية. وبشكل محدد، نقترح نموذجًا جديدًا تمامًا لتوليد وتعديل الصور الموجهة بالنص، مستندًا إلى الخصائص المتميزة لنموذج GAN المُدرّب مسبقًا. يشمل النموذج المقترح استراتيجيتين جديدتين. الأولى: تدريب مشفر نصي للحصول على رموز مُتَوَقِّعة (latent codes) تتماشى مع البنية الهرمية للدلالات في نموذج GAN المُدرّب مسبقًا. الثانية: تحسين مباشرة لرموز المُتَوَقِّعة في الفضاء المُتَوَقِّع (latent space) لنموذج GAN المُدرّب مسبقًا باستخدام توجيه من نموذج لغوي مُدرّب مسبقًا. يمكن عشوائيًا أخذ الرموز المُتَوَقِّعة من توزيع أولي، أو استخلاصها من صورة معطاة، مما يوفر دعماً ذاتيًا لكلا الوظيفتين: توليد الصور وتعديلها من مدخلات متعددة الوسائط مثل الرسومات التخطيطية أو العلامات الدلالية، مع توجيه نصي. ولتسهيل التوليد متعدد الوسائط الموجه بالنص، نقترح مجموعة بيانات كبيرة بعنوان Multi-Modal CelebA-HQ، تتكون من صور واقعية للوجوه وخرائط التصنيف الدلالي المقابلة، والرسوم التخطيطية، والوصف النصي. تُظهر التجارب الواسعة على مجموعة البيانات المقدمة الأداء المتفوق لطريقة المقترحة. يتوفر الكود والبيانات على الرابط: https://github.com/weihaox/TediGAN.