HyperAIHyperAI
منذ 17 أيام

WaveNet: تحسين الصور المُدرك للموجات

{Lishun Wang, Yong Zhong, Zehao Li, Jiachen Dang}
WaveNet: تحسين الصور المُدرك للموجات
الملخص

باعتبارها مهمة بصرية منخفضة المستوى، يُستخدم تحسين الصور على نطاق واسع في تطبيقات مختلفة في الرؤية الحاسوبية. في الآونة الأخيرة، حققت عدة طرق مدمجة مع الشبكات العصبية التلافيفية (CNN)، والشبكات العصبية المتعددة الطبقات (MLP)، ونماذج التحويل (Transformer)، والتحويل ذو فورييه (Fourier transform) نتائج واعدة في مهام تحسين الصور. ومع ذلك، لا تتمكن هذه الطرق من تحقيق توازن بين الدقة والتكلفة الحسابية. في هذا البحث، نُصِّغ عملية التحسين كمشكلة تحوّل إشارة، ونُقدّم بنية "WaveNet" التي تُظهر أداءً متميزًا في مختلف المعاملات، وتحسّن تمثيل الميزات من خلال تمثيل ميزات على شكل موجات. وبشكل خاص، لتحسين التقاط تمثيلات الميزات على شكل موجات، نقترح تمثيل بكسل كقيمة مُؤخذة من دالة إشارة مكوّنة من ثلاث دوال موجية (موجة جيب التمام (CW)، وموجة الجيب (SW)، وموجة التفعيل (GW)) مستوحاة من التحويل ذو فورييه. وتتطلب هذه الطريقة تحديد الامplitude (السعة) والطور (الطور) لإنشاء الميزات على شكل موجات. حيث يحتوي مصطلح السعة على المحتوى الأصلي للميزات، بينما يُستخدم مصطلح الطور لتعديل العلاقة بين المدخلات المختلفة والوزن الثابت. وللحصول الديناميكي على الطور والسعة، نُنشئ وحدة التحويل الموجي (Wave Transform Block - WTB) التي تُولّد الموجات بشكل تكيفي وتحدد نمط التراكب الموجي. وباستناد إلى وحدة WTB، نُنشئ بنية فعّالة تُسمى WaveNet لتحسين الصور. أظهرت التجارب الواسعة على ستة مجموعات بيانات واقعية أن نموذجنا يحقق نتائج كمية ونوعية أفضل من الطرق المتطورة حديثًا. يُمكن الوصول إلى الكود المصدري والنموذج المُدرّب مسبقًا عبر الرابط: https://github.com/DeniJsonC/WaveNet.