HyperAIHyperAI
منذ 17 أيام

StyleGAN-XL: توسيع StyleGAN إلى مجموعات بيانات كبيرة ومتنوعة

Axel Sauer, Katja Schwarz, Andreas Geiger
StyleGAN-XL: توسيع StyleGAN إلى مجموعات بيانات كبيرة ومتنوعة
الملخص

شهدت رسومات الحاسوب تطورًا حديثًا متمحورًا حول البيانات لخلق محتوى واقعي بصريًا وقابل للتحكم. حيث حددت نموذج StyleGAN معايير جديدة في النمذجة التوليدية فيما يخص جودة الصور وقابلية التحكم. ومع ذلك، فإن أداء StyleGAN ينخفض بشكل كبير عند استخدامه على مجموعات بيانات كبيرة وغير منظمة مثل ImageNet. فقد صُمّم StyleGAN لتعزيز التحكم، وبالتالي يعتقد الباحثون السابقون أن تصميمه المحدود لا يناسب مجموعات بيانات متنوعة. في المقابل، نجد أن العامل المحدود الرئيسي هو الاستراتيجية الحالية للتدريب. بالاعتماد على النموذج المُقدَّم حديثًا المعروف بـ Projected GAN، نستفيد من مُقدّمات الشبكات العصبية القوية واستراتيجية النمو التدريجي لتدريب نموذج StyleGAN3 الأحدث بنجاح على مجموعة ImageNet. ويُعدّ النموذج النهائي لدينا، StyleGAN-XL، الأفضل على مستوى التوليد الصوتي على نطاق واسع، وهو أول نموذج يُنتج صورًا بدقة $1024^2$ في هذا الحجم من البيانات. ونُظهر أن هذا النموذج قادر على استرجاع الصور وتحريرها خارج النطاق الضيق للصور الشخصية أو فئات الكائنات المحددة.

StyleGAN-XL: توسيع StyleGAN إلى مجموعات بيانات كبيرة ومتنوعة | أحدث الأوراق البحثية | HyperAI