Styleformer: شبكات توليدية منافسة تعتمد على المُحَوِّل مع متجه الأسلوب

نُقدِّم "Styleformer"، وهو مولّد مبني على الأسلوب لبنية GAN، ولكن ببنية مُعدّلة تعتمد على المحولات (Transformer) دون استخدام التحويلات التلافيفية (Convolution-free). في ورقتنا البحثية، نُوضّح كيف يمكن للمحول إنتاج صور عالية الجودة، مع التغلب على العيب الذي يُعدّ التحويل التلافيفي صعبًا في التقاط السمات العالمية للصورة. علاوةً على ذلك، قمنا بتعديل عملية تفكيك التماثل (demodulation) في StyleGAN2، وتمّ تطوير هيكل المحول الحالي (مثل الاتصالات المتبقية، والتوحيد الطبقي) لخلق مولّد قوي مبني على الأسلوب وبهيكل خالٍ من التحويلات التلافيفية. كما قمنا بجعل Styleformer أكثر خفة من خلال تطبيق تقنية Linformer، ما سمح له بإنتاج صور ذات دقة أعلى، مع تحسينات ملحوظة في السرعة واستهلاك الذاكرة. قمنا باختبار Styleformer على مجموعة بيانات صور منخفضة الدقة مثل CIFAR-10، وعلى مجموعة بيانات صور عالية الدقة مثل LSUN-church. وسجل Styleformer مؤشر FID قدره 2.82 ومؤشر IS بقيمة 9.94 على CIFAR-10، وهي أداء مُComparable مع أحدث النماذج المتطورة، وتفوق جميع النماذج القائمة على GAN، بما في ذلك StyleGAN2-ADA، مع عدد أقل من المعاملات في البيئة غير المشروطة. كما حقق أداءً جديدًا لحالة الذروة على كل من STL-10 وCelebA، حيث بلغ FID 15.17 وIS 11.01، وFID 3.66 على التوالي. نُعلن عن إتاحة الكود الخاص بنا عبر الرابط التالي: https://github.com/Jeeseung-Park/Styleformer.