Real-ESRGAN: تدريب التحسين العلوي العميق للصورة في العالم الحقيقي مع بيانات مُصطنعة نقية

على الرغم من الجهود الكثيرة المبذولة في مجال التحسين العشوائي للدقة (blind super-resolution) بهدف استعادة الصور ذات الدقة المنخفضة التي تعاني من تشوهات مجهولة ومعقدة، إلا أن هذه الأساليب ما زالت بعيدة عن معالجة الصور المُعَوَّقة الواقعية العامة. في هذه الدراسة، نوسع قدرات نموذج ESRGAN القوي ليصبح تطبيقًا عمليًا للاستعادة (يُعرف باسم Real-ESRGAN)، والذي تم تدريبه باستخدام بيانات مُصَنَّعة فقط. وبشكل خاص، نُقدّم عملية نمذجة تشوهات من الدرجة العالية لمحاكاة أفضل للتشوهات المعقدة الموجودة في العالم الحقيقي. كما نأخذ بعين الاعتبار الظواهر الشائعة مثل الاهتزازات (ringing) والتشوهات الزائدة (overshoot) التي تظهر أثناء عملية التوليد. علاوةً على ذلك، نستخدم مُميّزًا من نوع U-Net مع التطبيع الطيفي (spectral normalization) لتعزيز قدرة المُميّز وتحسين استقرار ديناميكيات التدريب. وقد أظهرت المقارنات الواسعة أداءً بصريًا متفوقًا مقارنة بالأساليب السابقة على مجموعة متنوعة من مجموعات البيانات الواقعية. كما نقدّم أيضًا تنفيذات فعّالة لتوليد أزواج التدريب بشكل ديناميكي أثناء التشغيل.