شبكات التوليد ذات الانتباه الذاتي

في هذا البحث، نقترح شبكة التوليد المعادية ذاتية الانتباه (Self-Attention Generative Adversarial Network - SAGAN)، والتي تسمح بنمذجة الاعتمادية طويلة المدى مدفوعة بالانتباه في مهام توليد الصور. الشبكات التقليدية المعادية التوليدية القائمة على التفاف (GANs) تولد التفاصيل عالية الدقة كدالة لنقاط فضائية محلية فقط في الخرائط الميزات ذات الدقة المنخفضة. أما في SAGAN، فيمكن إنشاء التفاصيل باستخدام مؤشرات من جميع مواقع الميزات. بالإضافة إلى ذلك، يمكن للمنشئ أن يتحقق من أن الميزات شديدة الدقة في أجزاء بعيدة من الصورة متسقة مع بعضها البعض. علاوة على ذلك، أظهرت الأبحاث الحديثة أن شروط المنشئ تؤثر على أداء GANs. استنادًا إلى هذه الرؤية، قمنا بتطبيق التطبيع الطيفي على منشئ GAN ووجدنا أنه يحسن الديناميكيات التدريب. حققت الشبكة المقترحة SAGAN أفضل النتائج المتقدمة حتى الآن، حيث رفعت أعلى درجة تم نشرها لاختبار Inception من 36.8 إلى 52.52 وخفضت المسافة Frechet Inception من 27.62 إلى 18.65 على مجموعة بيانات ImageNet الصعبة. تظهر مرئيات طبقات الانتباه أن المنشئ يستفيد من المناطق التي تتوافق مع أشكال الأشياء بدلاً من المناطق المحلية ذات الشكل الثابت.