العَمَلِيَّةُ الخَبِيثَةُ لِتَوْلِيدِ الصُّوَرِ الاتِّصَالِيَّةِ

في معظم أنظمة التعلم الحالية، تُعتبر الصور عادةً كمصفوفات ثنائية الأبعاد من البكسلات. ومع ذلك، في نموذج بديل يكتسب شعبية متزايدة، تمثل الصورة الثنائية الأبعاد كتمثيل عصبي ضمني (INR) – وهو شبكة عصبية متعددة الطبقات (MLP) تتنبأ بقيمة البكسل RGB بناءً على إحداثياته (x,y). في هذه الورقة، نقترح تقنيتين معماريتيتين جديدتين لبناء فكّات صور تعتمد على INR: التضمين المضاعف المُجزأ وINRs متعددة المقياس، ونستخدمهما لبناء نموذج GAN للصور المستمرة يُعد من أحدث النماذج في مجاله. كانت المحاولات السابقة لتعديل INRs في مجال توليد الصور محدودة بقواعد بيانات شبيهة بـ MNIST، ولا تصلح للتوسع في البيانات الواقعية المعقدة. يُحسّن المعمارية المُقترحة لـ INR-GAN أداء مُولّدات الصور المستمرة بعديد المرات، مما يقلل بشكل كبير الفجوة بين نماذج GAN للصور المستمرة ونماذج الصور القائمة على البكسل. إلى جانب ذلك، نستعرض عدة خصائص مثيرة للاهتمام لفكّات INR القائمة على الصور، مثل تحسين الدقة الفائقة دون الحاجة إلى تدريب إضافي، والتداخل المعنى في فضاء الصورة، وتسريع عملية استخلاص الصور منخفضة الدقة، وقدرة الاستقراء خارج حدود الصورة، بالإضافة إلى وجود سابقة هندسية قوية. يمكن الاطلاع على صفحة المشروع من خلال الرابط التالي: https://universome.github.io/inr-gan.