التعرف على الصور غير المُعتمد على الجودة من خلال فك التشفير القابل للعكس

رغم الأداء المتميز للنماذج العميقة في مهام تصنيف الصور، إلا أنها معروفة بأنها عرضة للتشوهات الشائعة مثل الضبابية والضوضاء وانخفاض الدقة. يُعد التكبير البياناتي (Data Augmentation) طريقة تقليدية لبناء نموذج مقاوم من خلال أخذ هذه التشوهات الشائعة بعين الاعتبار أثناء التدريب. ومع ذلك، قد يؤدي نهج التكبير البياناتي البسيط إلى نموذج غير متخصص في معالجة تشوهات معينة، نظرًا لأن النموذج يميل إلى تعلم التوزيع المتوسط بين مختلف التشوهات. لمعالجة هذه المشكلة، نقترح نموذجًا جديدًا لتدريب شبكات التعرف على الصور العميقة، بحيث تُنتج ميزات تشبه الصور النظيفة من أي صورة بجودة مختلفة، وذلك من خلال بنية شبكية قابلة للعكس (Invertible Neural Architecture). يتكون النهج المقترح من مرحلتين. في المرحلة الأولى، نُدرّب شبكة قابلة للعكس باستخدام صور نظيفة فقط، وباستخدام هدف التعرف. وفي المرحلة الثانية، نُرفق عكس هذه الشبكة (أي، المُفكّك القابل للعكس) بشبكة تعرف جديدة، ثم نُدرّب هذه الشبكة المُكوَّنة من المُشفِّر والمُفكِّك باستخدام كل من الصور النظيفة والمشوهة، مع أخذ كل من أهداف التعرف والإعادة التكوينية بعين الاعتبار. يُمكّن هذا النموذج ثنائي المراحل الشبكة من إنتاج ميزات تشبه الصور النظيفة ومقاومة للتشوهات من أي صورة بجودة، وذلك من خلال إعادة تكوين الصورة النظيفة عبر المُفكِّك القابل للعكس. ونُظهر فعالية هذا النهج في مهام تصنيف الصور والتعرف على الوجوه.