إنشاء صور عالية الدقة باستخدام شبكات البكسل الفرعية وتوسيع الأبعاد المتعددة

توليد الصور عالية الدقة دون شروط هو معيار قديم لاختبار أداء محولات الصور. تمكنت النماذج التصويرية الذاتية التكرارية من توليد صور صغيرة دون شروط، ولكن توسيع هذه الطرق إلى صور كبيرة حيث يمكن تقييم الدقة بشكل أكثر سهولة ظل مشكلة مفتوحة. من بين التحديات الرئيسية هي القدرة على ترميز السياق السابق الواسع والصعوبة الشديدة في تعلم توزيع يحافظ على التجانس الدلالي العالمي ودقة التفاصيل. للتعامل مع التحدي الأول، نقترح شبكة البكسل الفرعية (Subscale Pixel Network - SPN)، وهي هندسة محول مشروط تقوم بتوليد الصورة كمتتابعة من الصور الفرعية المتساوية في الحجم. تقوم الشبكة SPN بالتقاط الارتباطات المكانية عبر الصورة بشكل مضغوط وتتطلب جزءًا فقط من الذاكرة والحسابات اللازمة للنماذج الذاتية التكرارية الكاملة الأخرى. للتعامل مع التحدي الثاني، نقترح استخدام تقنية التوسيع المتعدد الأبعاد لزيادة حجم وعمق الصورة عبر مراحل وسيطة باستخدام شبكات SPN مختلفة. نقيم شبكات SPN على توليد صور CelebAHQ بحجم 256 وصور ImageNet من حجم 32 إلى 256. نحقق أفضل النتائج المحتملة في العديد من الإعدادات، ننشئ معايير جديدة في إعدادات لم يتم استكشافها سابقًا، ونتمكن من توليد عينات كبيرة الحجم ذات دقة عالية للغاية بناءً على كلتا قاعدة البيانات.