الإشراف المُشفَّر تلقائيًا للتحسين البصري للصورة

يتعامل هذا العمل مع هدف الولاء في مسألة التكبير البصري (SR). وبشكل خاص، نعالج العيوب الناتجة عن استخدام خسارة المستوى البكسيلي $L_\text{p}$ ($\mathcal{L}\text{pix}$) في الإطار المبني على الشبكات التوليدية التفاعلية (GAN). ونظرًا لوجود علاقة تناقض بين $L\text{pix}$ ونوعية الإدراك البصري، غالبًا ما تستخدم الطرق السابقة عاملًا مقياسًا صغيرًا أو تطبق مرشحات منخفضة التردد. ولكن يُظهر هذا العمل أن هذه الحلول البديلة لا تحل العامل الجذري المسؤول عن التشويش. وعليه، نركّز على نقطتين رئيسيتين: 1) التمييز بدقة للمكون الفرعي لـ $L_\text{pix}$ الذي يساهم في التمويه، و2) التوجيه فقط بناءً على العامل الذي لا يخضع لعلاقة التناقض هذه. ونُظهر أن هاتين النقطتين يمكن تحقيقهما بطريقة مفاجئة بسيطة، باستخدام مُشفّر تلقائي (AE) مُدرّب مسبقًا باستخدام $L_\text{pix}$. وبناءً عليه، نقترح خسارة جديدة تُسمى "الإشراف المُشفّر التلقائي للعقاب الأمثل" ($L_\text{AESOP}$)، وهي خسارة تقيس المسافة في فضاء المُشفّر التلقائي، بدلًا من فضاء البكسل الأصلي. ويُشير فضاء المُشفّر التلقائي إلى الفضاء الناتج بعد عملية الترميز (decoder)، وليس الفضاء المركزي (bottleneck). وباستبدال $L_\text{pix}$ بسهولة بـ $L_\text{AESOP}$، يمكننا توفير توجيه فعّال لإعادة البناء دون التضحية بجودة الإدراك البصري. وتم تصميم هذه الطريقة ببساطة، مما يمكّن من دمجها بسهولة في الإطارات الحالية لتكبير الصور. وتوصّل النتائج التجريبية إلى أن AESOP يمكن أن تُحقق نتائج مُرضية في مهام التكبير البصري.