HyperAIHyperAI
منذ 2 أشهر

تديغان: توليد وتعديل صور الوجوه المتنوعة بارشاد النص

Xia, Weihao ; Yang, Yujiu ; Xue, Jing-Hao ; Wu, Baoyuan
تديغان: توليد وتعديل صور الوجوه المتنوعة بارشاد النص
الملخص

في هذا العمل، نقترح تيديجان (TediGAN)، إطارًا جديدًا لتوليد وتعديل الصور متعددة الأوضاع باستخدام الوصف النصي. تتكون الطريقة المقترحة من ثلاثة مكونات: وحدة عكس ستايلجان (StyleGAN)، تعلم التشابه البصري-اللغوي، والتحسين على مستوى الحالة. يقوم مكون العكس بخريطة الصور الحقيقية إلى الفضاء الكامن لستايلجان المدرب بشكل جيد. يتعلم التشابه البصري-اللغوي مطابقة النص والصورة من خلال خرائط الصورة والنص إلى فضاء تمثيلي مشترك. يتم استخدام التحسين على مستوى الحالة للحفاظ على الهوية أثناء التعديل. يمكن لنموذجنا إنتاج صور متنوعة ذات جودة عالية بدقة غير مسبوقة تبلغ 1024 بكسل. باستخدام آلية تحكم تعتمد على خلط الأنماط، يدعم تيديجان (TediGAN) بشكل أساسي التركيب البصري مع المدخلات متعددة الأوضاع، مثل الرسومات أو العلامات الدلالية، وبوجود أو عدم وجود إرشاد حالي. لتسهيل التركيب متعدد الأوضاع الموجه بالنصوص، نقترح مجموعة بيانات سيليبي أيتشيوكو (CelebA-HQ) متعددة الأوضاع، وهي مجموعة بيانات كبيرة تتضمن صورًا حقيقية للوجوه وخرائط تقسيم دلالي مرتبطة بها، ورسومات ووصف نصي. تظهر التجارب الواسعة التي أجريت على المجموعة البيانات المقدمة الأداء المتفوق للطريقة المقترحة. يمكن الحصول على الكود والمعلومات من الرابط https://github.com/weihaox/TediGAN.