HyperAI

استخدم خوارزمية القائد فائق الدقة ESRGAN لتدريب نموذج تحسين الصورة

منذ 4 أعوام
العلوم الشعبية
Yang Bai
特色图像

غالبًا ما تكون هناك حاجة إلى تقنية الدقة الفائقة لتحويل الصور أو مقاطع الفيديو من دقة منخفضة إلى دقة عالية واستعادة التفاصيل المفقودة أو استكمالها (أي المعلومات عالية التردد).

اعتمادًا على عدد الصور ذات الدقة المنخفضة المستخدمة،يمكن تقسيم تقنية الدقة الفائقة إلى دقة فائقة للصورة الواحدة (SISR) ودقة فائقة للصور المتعددة (MISR).

مستخدمو الإنترنت يستخدمون تقنية الذكاء الاصطناعي لتلوين وإدراج الإطارات في مقاطع الفيديو،تم ترميم صور حياة مواطني بكين في عام 1920

يستخدم SISR صورة ذات دقة منخفضة.لتحقيق تأثير زيادة حجم الصورة أو زيادة البكسل،وبالتالي يتم الحصول على صورة عالية الدقة.

يستخدم MISR صورًا متعددة منخفضة الدقة لنفس المشهد.احصل على تفاصيل مختلفة وقم بتجميع صورة واحدة أو أكثر عالية الدقة. يمكن أن يكون إخراج MISR إما صورة واحدة أو سلسلة من الصور (أي مقطع فيديو).

ثلاثة أسلحة سحرية لتحقيق دقة فائقة: الاستيفاء، وإعادة البناء، والتعلم

يمكن تقسيم طرق تحسين دقة الصورة إلى ثلاث فئات: طرق تعتمد على الاستيفاء، وطرق تعتمد على إعادة البناء، وطرق تعتمد على التعلم.

  الطريقة 1: بناءً علىالاستيفاء 

الاستيفاء هو عملية تكبير الصورة للعثور على الفجوات.املأ قيم البكسل المقابلة،يمكن أن يؤدي هذا إلى استعادة محتوى الصورة وتحسين دقتها.

تتضمن طرق الاستيفاء المستخدمة بشكل شائع ما يلي: استيفاء أقرب جار، والاستيفاء الخطي، والاستيفاء الثنائي الخطي، والاستيفاء ثنائي التكعيب.

استيفاء أقرب جار

تعتبر طريقة استيفاء أقرب جار هي الطريقة الأسهل والأكثر بدائية في التنفيذ، وتتطلب أقل قدر من الحسابات.كل ما عليك فعله هو نسخ قيمة البكسل الأقرب مباشرة لملئها.ومع ذلك، فإن الميزة الأكثر وضوحًا في نسخ البكسلات المجاورة لها هي أن التأثير ضعيف وتأثير الكتلة واضح.

بعد استيفاء أقرب جار للصورة اليسرى،الصورة الناتجة على اليمين لها تأثيرات متعرجة أو فسيفسائية واضحة.

الاستيفاء الخطي

الاستيفاء الخطي  هو الاستيفاء في اتجاه واحد.بالنسبة للبيانات أحادية البعد فقط، تكون المعادلة عبارة عن متعددة حدود أحادية المتغير، أي أنه يوجد متغير واحد فقط.

مخطط تخطيطي لمبدأ الاستيفاء الخطي،بالنظر إلى الإحداثيات (x0، y0) و (x1، y1)، حيث x هي قيمة معروفة بين x0 و x1، أوجد y

الاستيفاء الخطي الثنائي

تعتبر عملية الاستيفاء الثنائي الخطي مشابهة لطريقة الاستيفاء الخطي للبيانات أحادية البعد.الفرق هو أن الاستيفاء الخطي يمتد إلى الصور ثنائية الأبعاد ويجب أن يتم استيفاؤه في كل من اتجاهي X وY.

إن عملية الاستيفاء الثنائي الخطي أكثر تعقيدًا قليلًا من عملية الاستيفاء بأقرب جار، ولكن التأثير يكون أكثر سلاسة، وهو ما يتسبب أيضًا في ظهور بعض تفاصيل الصورة المُدخلة بشكل غير واضح.

الاستيفاء ثنائي التكعيب

الاستيفاء ثنائي التكعيب على نحو مماثل،استيفاء وظائف ثلاثة متغيرات.إن الاستيفاء ثنائي التكعيب أكثر تعقيدًا، كما أن حواف الصورة التي ينتجها أكثر سلاسة ودقة من الاستيفاء ثنائي الخط، ولكنه أيضًا الأبطأ.

  الطريقة الثانية: القائمة على إعادة البناء 

تعتمد طريقة الترميم فائقة الدقة المبنية على إعادة البناء على استخدام صور متعددة منخفضة الدقة لنفس المشهد.محاذاة الدقة الفرعية للبكسل في الفضاء،  عملية الحصول على إزاحة الحركة بين الصور عالية الدقة والمنخفضة الدقة، وبناء معلمات الحركة المكانية في نموذج المراقبة، وبالتالي الحصول على صورة عالية الدقة.

الصورة الأصلية عالية الدقة (يسار)،تسلسل الصور الملتقطة بعد إزاحة البكسل الفرعي (يمين)

الفكرة الأساسية لطرق الدقة الفائقة القائمة على إعادة البناء هيويتمثل ذلك في استخدام النطاق الترددي الزمني (الحصول على تسلسل صور متعدد الإطارات لنفس المشهد) في مقابل الدقة المكانية.تحقيق تحويل الدقة الزمنية إلى دقة مكانية.

في الوقت الحالي، يمكن تقسيم طرق إعادة بناء الدقة الفائقة إلى فئتين: طرق المجال الترددي وطرق المجال المكاني.

تحل طريقة المجال الترددي مشكلة استيفاء الصورة في المجال الترددي. يعتمد نموذج الملاحظة الخاص به على خصائص التحول في تحويل فورييه.إنها تتمتع بنظرية بسيطة، وتعقيد حسابي منخفض، وسهلة تنفيذ المعالجة المتوازية.

يتضمن نموذج المراقبة المكانية الخطية للطريقة المكانية الحركة العالمية والمحلية، والضبابية البصرية، وضبابية الحركة داخل الإطار، وما إلى ذلك.وتشمل طرقها النموذجية طريقة الاستيفاء غير المنتظم، وطريقة الإسقاط الخلفي التكراري، وطريقة الاحتمال الخلفي الأقصى (الطريقة الأكثر استخدامًا في التطبيقات العملية والبحث العلمي)، وطريقة إسقاط المجموعة المحدبة.

  الطريقة الثالثة: التعلم القائم على التعلم 

تشير طريقة الدقة الفائقة القائمة على التعلم إلى التعلم المباشر لوظيفة التعيين من البداية إلى النهاية من الصور منخفضة الدقة إلى الصور عالية الدقة من خلال شبكة عصبية.استخدم المعرفة السابقة التي تعلمها النموذج للحصول على تفاصيل عالية التردد للصورة.ومن ثم تحقيق تأثير أفضل لاستعادة الصورة.

تتضمن خطوات الخوارزمية المبنية على التعلم الضحل ما يلي:استخراج الميزات -> التعلم -> إعادة البناء. تشمل الأساليب السائدة: الطريقة القائمة على المثال، وطريقة تضمين الحي، وطريقة الانحدار المتجه الداعم، وطريقة التمثيل المتناثر، وما إلى ذلك.

ومن بينها، الطريقة القائمة على المثال، وهي أول خوارزمية فائقة الدقة للصورة الواحدة تعتمد على التعلم.تم اقتراحه لأول مرة بواسطة فريمان. ويستخدم مجموعات بيانات تدريب التعلم الآلي لتعلم العلاقة بين الدقة المنخفضة والدقة العالية، ثم يحقق إعادة بناء فائقة الدقة.

تتضمن خطوات الخوارزمية المبنية على التعلم العميق ما يلي:استخراج الميزات ← رسم الخرائط غير الخطية ← إعادة بناء الصورة

تتضمن طرق إعادة بناء الصور فائقة الدقة المستندة إلى التعلم العميق SRCNN وFSRCNN وESPCN وVDSR وSRGAN وESRGAN وما إلى ذلك.سنركز هنا على الخوارزميات الثلاث: SRCNN، وSRGAN، وESRGAN.

SRCNN

SRCNN هو العمل الرائد الذي يستخدم التعلم العميق لإعادة البناء بدقة فائقة. بنية شبكتها بسيطة للغاية.فهو يتضمن فقط 3 طبقات ملتوية.

بنية شبكة SRCNN،الخطوات الثلاث للخوارزمية هي: استخراج الميزات، والرسم غير الخطي، وإعادة بناء الصورة

طريقة التنفيذ راقية جداً:أدخل صورة منخفضة الدقة، واستخدم طريقة الاستيفاء ثنائي التكعيب لتكبير الصورة إلى الحجم المستهدف، ثم استخدم شبكة عصبية ملتوية ثلاثية الطبقات لتناسب التعيين غير الخطي بين الصورة منخفضة الدقة والصورة عالية الدقة، وأخيرًا أخرج الصورة عالية الدقة المعاد بناؤها.

ميزة:بنية الشبكة بسيطة (يتم استخدام 3 طبقات ملتوية فقط)؛ الإطار مرن في اختيار المعلمات ويدعم التخصيص.

عيب: يتم إجراء التدريب فقط على عامل مقياس واحد، وبمجرد تغير كمية البيانات، يجب إعادة تدريب النموذج؛ يتم استخدام طبقة ملتوية واحدة فقط لاستخراج الميزات، وهي محدودة نسبيًا ولا يتم تقديم التفاصيل بالكامل؛ عندما يتم تكبير الصورة أكثر من 4 مرات، تكون النتيجة سلسة للغاية وغير واقعية.

سرجان

SRGAN هو الإطار الأول الذي يدعم تكبير الصورة بمقدار 4 مرات مع الحفاظ على الواقعية.اقترح الباحثون مفهوم وظيفة الخسارة الإدراكية، والتي تشمل الخسارة العدائية وفقدان المحتوى.

هيكل الشبكة للمولد والمميز في SRGAN،تحتوي جميع الطبقات التلافيفية على حجم نواة تلافيفية مماثل k وعدد خرائط الميزات n وحجم الخطوة s.

تستخدم الخسارة المعادية شبكة تمييز لتحديد الفرق في الأصالة بين الصورة الناتجة والصورة الأصلية؛ كما أن فقدان المحتوى ناتج أيضًا عن التشابه الإدراكي وليس تشابه مساحة البكسل.

مقدمة لوظيفة فقدان الإدراك،يتيح هذا لـ SRGAN إنشاء نسيج حقيقي واستكمال التفاصيل المفقودة لصورة واحدة عند إجراء إعادة بناء فائقة الدقة للصورة.

إسرجان 

يعتمد ESRGAN على SRGAN.تم تحسين بنية الشبكة والخسارة المعادية والخسارة الإدراكية بشكل أكبر.جودة صورة محسنة لمعالجة فائقة الدقة. تتضمن تحسينات النموذج الجوانب الثلاثة التالية:

 1   تقديم كتلة Residual-in-Residual Dense Block (RRDB) ذات سعة أكبر وتدريب أسهل لتحسين بنية الشبكة، وحذف طبقة Batch Normalization (BN)، واستخدام التوسع المتبقي والتهيئة الأصغر لتحسين تدريب الشبكات العميقة؛

 2   استخدم RaGAN لتحسين المميز والتنبؤ بالأصالة النسبية بين الصورة عالية الدقة والصورة الأصلية بدلاً من القيمة المطلقة، بحيث يمكن للمولد استعادة تفاصيل الملمس الأكثر واقعية للصورة الأصلية؛

 3   تحسين الخسارة الإدراكية عن طريق تغيير ميزات VGG بعد التنشيط في SRGAN السابق الذي يجب إجراؤه قبل التنشيط، مما يحسن وضوح الحافة وواقعية الملمس للصورة الناتجة.

صور المباني الناتجة بواسطة ESRGAN مقارنة بالطرق الأخرى (أسفل اليمين)،ملمس أكثر طبيعية وتفاصيل أفضل

بالمقارنة مع SRGAN،يقوم ESRGAN بإخراج صور ذات جودة أفضل وملمس أكثر واقعية وطبيعية.حصلت على المركز الأول في تحدي PIRM2018-SR. يمكن العثور على الكود على github.com/xinntao/ESRGAN.

برنامج تعليمي: تحسين الصورة باستخدام ESRGAN

سوف يوضح هذا البرنامج التعليمي كيفية استخدام خوارزمية ESRGAN في TensorFlow Hub لتحسين الصورة. يظهر مخرجات ESRGAN أدناه:

مقارنة بين الصورة الأصلية (يسار) ومخرجات ESRGAN (يمين) بعد إعادة بناء الدقة الفائقة،تتميز ESRGAN بالوضوح ومعالجة التفاصيل

البدء السريع مع ESRGAN


اتفاقية المصدر المفتوح:ترخيص أباتشي 2.0

بيئة التثبيت:بايثون 3.6، TensorFlow 2.3.1

طريقة الاستخدام:تم تدريب النموذج على 128 × 128 صورة من مجموعة بيانات DIV2K (صور مخفضة الحجم ثنائية التكعيب).

ملحوظة:لتشغيل البرنامج التعليمي، يرجى استخدام "استخدام ESRGAN لإعادة بناء الدقة الفائقة للصورة.ipynb" وتشغيل الخلايا بالتسلسل؛ يحتوي مجلد النموذج في الدليل على ملف النموذج، وملف esrgan-tf2_1.tar.gz هو حزمة ضغط النموذج (حزمة الضغط غير مستخدمة في هذا البرنامج التعليمي)

الوصول إلى البرنامج التعليمي الكامل

إعداد البيئة 

تعريف وظائف المساعدة

يقوم بإجراء دقة فائقة على صورة تم تحميلها من مسار

مقارنة أحجام المخرجات جنبًا إلى جنب

الوصول إلى البرنامج التعليمي الكامل

  حول OpenBayes

OpenBayes هي مؤسسة رائدة في مجال أبحاث الذكاء الآلي في الصين.يوفر عددًا من الخدمات الأساسية المتعلقة بتطوير الذكاء الاصطناعي، بما في ذلك حاويات قوة الحوسبة، والنمذجة التلقائية، والتعديل التلقائي للمعلمات.

وفي الوقت نفسه، أطلقت OpenBayes أيضًا العديد من الموارد العامة السائدة مثل مجموعات البيانات والبرامج التعليمية والنماذج.لتمكين المطورين من التعلم بسرعة وإنشاء نماذج التعلم الآلي المثالية.

قم بزيارة الآن openbayes.com وتسجيل،احصل على 600 دقيقة/أسبوعًا من استخدام vGPU،و300 دقيقة أسبوعيًا من وقت الحوسبة المجاني لوحدة المعالجة المركزية

اتخذ الإجراء الآن وقم بتدريب نموذج تحسين الصورة فائقة الدقة الخاص بك مع ESRGAN!

مشاهدة البرنامج التعليمي الكامل