تعلم الميزات المُثرَّاة لتحسين وإصلاح الصور الحقيقية

بهدف استعادة محتوى الصورة عالي الجودة من نسخة مُتدهورة، تُعدّ عمليات استعادة الصور ذات تطبيقات واسعة، مثل المراقبة، والتصوير الحاسوبي، والتصوير الطبي، والاستشعار عن بعد. في الآونة الأخيرة، حققت الشبكات العصبية التلافيفية (CNN) تحسينات كبيرة مقارنة بالأساليب التقليدية في مهام استعادة الصور. تُطبّق الأساليب القائمة على الشبكات العصبية التلافيفية عادةً إما على تمثيلات كاملة الدقة أو على تمثيلات متسلسلة منخفضة الدقة. في الحالة الأولى، تُنتج نتائج دقيقة مكانيًا ولكنها أقل متانة من حيث السياق، بينما في الحالة الثانية، تُولَد نتائج موثوقة من حيث المعنى ولكنها أقل دقة مكانيًا. في هذه الورقة، نقدّم معمارية جديدة تهدف إلى الحفاظ على تمثيلات عالية الدقة دقيقة مكانيًا عبر كامل الشبكة، وفي نفس الوقت استقبال معلومات سياقية قوية من التمثيلات منخفضة الدقة. يكمن جوهر نهجنا في كتلة تلافيفية متعددة المقاييس تحتوي على عدة عناصر أساسية: (أ) تدفقات تلافيفية متعددة المقاييس متوازية لاستخراج السمات متعددة المقاييس، (ب) تبادل المعلومات بين التدفقات متعددة المقاييس، (ج) آليات الانتباه المكاني والقنوي لالتقاط المعلومات السياقية، (د) تجميع السمات متعددة المقاييس القائمة على الانتباه. باختصار، يتعلم نهجنا مجموعة غنية من السمات التي تجمع بين المعلومات السياقية من مقاييس متعددة، مع الحفاظ في الوقت نفسه على التفاصيل المكانية عالية الدقة. أظهرت التجارب الواسعة على خمسة مجموعات بيانات معيارية حقيقية أن طريقةنا، التي تُسمى MIRNet، تحقق نتائج متقدمة على مستوى العالم في مجموعة متنوعة من مهام معالجة الصور، بما في ذلك إزالة الضوضاء من الصور، وتحسين الدقة، وتعزيز الصور. يمكن الوصول إلى كود المصدر والنماذج المدربة مسبقًا عبر الرابط: https://github.com/swz30/MIRNet.