إزالة الضوضاء التلقائية للصور المجهولة باستخدام Swin-Conv-UNet وتخليق البيانات

على الرغم من التوسع الكبير الذي شهده السنوات الأخيرة في استغلال الشبكات العصبية العميقة لحل مشكلة إزالة الضوضاء من الصور، تظل الطرق الحالية تعتمد بشكل رئيسي على افتراضات بسيطة للضوضاء، مثل الضوضاء الجaussian البيضاء المضافة (AWGN)، وضوضاء ضغط JPEG، وضوضاء مستشعرات الكاميرات، ولا يزال حل مشكلة إزالة الضوضاء العميقة العامة (العمومية) للصور الحقيقية غير مُحَلَّة. في هذا البحث، نسعى إلى معالجة هذه المشكلة من منظور تصميم معمارية الشبكة وتوظيف نموذج توليد بيانات التدريب. وبشكل محدد، فيما يتعلق بتصميم معمارية الشبكة، نقترح كتلة "Swin-Conv" التي تدمج قدرة الطبقة التلافيفية المتبقية على نمذجة السمات المحلية مع قدرة كتلة "Swin Transformer" على نمذجة السمات غير المحلية، ثم نُدخِل هذه الكتلة كمكوّن أساسي في معمارية UNet الشهيرة للتحويل من صورة إلى صورة. أما في ما يخص توليد بيانات التدريب، فقد صممنا نموذجًا عمليًا لتشويه الضوضاء يأخذ بعين الاعتبار أنواعًا مختلفة من الضوضاء (بما في ذلك الضوضاء الجaussian، والضوضاء باوسون، والضوضاء النقطية، وضوضاء ضغط JPEG، وضوضاء مستشعرات الكاميرات المُعالجة)، بالإضافة إلى عملية إعادة التحجيم، ويُطبّق استراتيجية خلط عشوائيّة واستراتيجية تدهور مزدوجة. أظهرت التجارب الواسعة في إزالة ضوضاء AWGN وإزالة الضوضاء من الصور الحقيقية أن التصميم الجديد للمعمارية يحقق أداءً من الدرجة الأولى (SOTA)، وأن نموذج التدهور الجديد يُسهم بشكل كبير في تحسين الجدوى العملية. نؤمن أن عملنا يمكن أن يُقدّم رؤى مفيدة للبحث الحالي في مجال إزالة الضوضاء.