HyperAIHyperAI

Command Palette

Search for a command to run...

تديغان: توليد وتعديل صور الوجوه المتنوعة بارشاد النص

Weihao Xia Yujiu Yang* Jing-Hao Xue Baoyuan Wu

الملخص

في هذا العمل، نقترح تيديجان (TediGAN)، إطارًا جديدًا لتوليد وتعديل الصور متعددة الأوضاع باستخدام الوصف النصي. تتكون الطريقة المقترحة من ثلاثة مكونات: وحدة عكس ستايلجان (StyleGAN)، تعلم التشابه البصري-اللغوي، والتحسين على مستوى الحالة. يقوم مكون العكس بخريطة الصور الحقيقية إلى الفضاء الكامن لستايلجان المدرب بشكل جيد. يتعلم التشابه البصري-اللغوي مطابقة النص والصورة من خلال خرائط الصورة والنص إلى فضاء تمثيلي مشترك. يتم استخدام التحسين على مستوى الحالة للحفاظ على الهوية أثناء التعديل. يمكن لنموذجنا إنتاج صور متنوعة ذات جودة عالية بدقة غير مسبوقة تبلغ 1024 بكسل. باستخدام آلية تحكم تعتمد على خلط الأنماط، يدعم تيديجان (TediGAN) بشكل أساسي التركيب البصري مع المدخلات متعددة الأوضاع، مثل الرسومات أو العلامات الدلالية، وبوجود أو عدم وجود إرشاد حالي. لتسهيل التركيب متعدد الأوضاع الموجه بالنصوص، نقترح مجموعة بيانات سيليبي أيتشيوكو (CelebA-HQ) متعددة الأوضاع، وهي مجموعة بيانات كبيرة تتضمن صورًا حقيقية للوجوه وخرائط تقسيم دلالي مرتبطة بها، ورسومات ووصف نصي. تظهر التجارب الواسعة التي أجريت على المجموعة البيانات المقدمة الأداء المتفوق للطريقة المقترحة. يمكن الحصول على الكود والمعلومات من الرابط https://github.com/weihaox/TediGAN.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp