Wavelet-SRNet: شبكة CNN تعتمد على تحويل الموجات لتحسين دقة الوجه متعددة المقياسات

تلجأ معظم الطرق الحديثة لاسترجاع الدقة العالية للوجه إلى الشبكات العصبية التلافيفية (CNN) لاستنتاج صور الوجه عالية الدقة (HR). ومع التعامل مع صور منخفضة الدقة جدًا (LR)، تتفاقم أداء هذه الطرق القائمة على الشبكات العصبية التلافيفية بشكل كبير. وفي الوقت نفسه، تميل هذه الطرق إلى إنتاج نتائج مُفرطة في التلisse (التنعيم)، وتُفقد تفاصيل نسيجية مهمة. ولحل هذه التحديات، تقدم هذه الورقة منهجية قائمة على الموجات (wavelet-based CNN) قادرة على استرجاع دقة صورة وجه منخفضة جدًا بحجم 16×16 بكسل أو أقل إلى نسخة أكبر بعوامل تكبير متعددة (2x، 4x، 8x، وحتى 16x) ضمن إطار موحد. على عكس الطرق التقليدية القائمة على الشبكات العصبية التلافيفية التي تستنتج صور عالية الدقة مباشرة، يعتمد منهجنا أولاً على تعلم توقع معاملات الموجات (wavelet coefficients) المقابلة للصورة منخفضة الدقة، ثم إعادة بناء الصورة عالية الدقة من هذه المعاملات. ولالتقاط كل من المعلومات الهيكلية الشاملة (global topology) وتفاصيل النسيج المحلية للوجوه البشرية، نقدّم شبكة عصبية تلافيفية مرنة قابلة للتوسيع، مدعومة بثلاثة أنواع من الخسائر: خسارة توقع الموجات، وخسارة النسيج، وخسارة الصورة الكاملة. وأظهرت التجارب الواسعة أن النهج المقترح يحقق نتائج أكثر جاذبية من حيث الجودة الكمية والكمية مقارنةً بالطرق الرائدة في استرجاع الدقة العالية.