StyleGAN-XL: توسيع StyleGAN إلى مجموعات بيانات كبيرة ومتنوعة

شهدت رسومات الحاسوب تطورًا حديثًا متمحورًا حول البيانات لخلق محتوى واقعي بصريًا وقابل للتحكم. حيث حددت نموذج StyleGAN معايير جديدة في النمذجة التوليدية فيما يخص جودة الصور وقابلية التحكم. ومع ذلك، فإن أداء StyleGAN ينخفض بشكل كبير عند استخدامه على مجموعات بيانات كبيرة وغير منظمة مثل ImageNet. فقد صُمّم StyleGAN لتعزيز التحكم، وبالتالي يعتقد الباحثون السابقون أن تصميمه المحدود لا يناسب مجموعات بيانات متنوعة. في المقابل، نجد أن العامل المحدود الرئيسي هو الاستراتيجية الحالية للتدريب. بالاعتماد على النموذج المُقدَّم حديثًا المعروف بـ Projected GAN، نستفيد من مُقدّمات الشبكات العصبية القوية واستراتيجية النمو التدريجي لتدريب نموذج StyleGAN3 الأحدث بنجاح على مجموعة ImageNet. ويُعدّ النموذج النهائي لدينا، StyleGAN-XL، الأفضل على مستوى التوليد الصوتي على نطاق واسع، وهو أول نموذج يُنتج صورًا بدقة $1024^2$ في هذا الحجم من البيانات. ونُظهر أن هذا النموذج قادر على استرجاع الصور وتحريرها خارج النطاق الضيق للصور الشخصية أو فئات الكائنات المحددة.