WaveMixSR-V2: تحسين التكبير الفائق من خلال كفاءة أعلى

لقد كانت التطورات الحديثة في تحسين دقة الصورة من صورة واحدة مدفوعة بشكل رئيسي بمحاور التوكنات وبنية المحولات (transformer). وقد استخدمت WaveMixSR بنية WaveMix، وذلك من خلال تطبيق التحويل الموجي الثنائي الأبعاد (2D discrete wavelet transform) لخلط التوكنات المكانية، مما أدى إلى أداء متميز في مهام تحسين الدقة مع كفاءة ملحوظة في استهلاك الموارد. في هذه الدراسة، نقدّم نسخة محسّنة من بنية WaveMixSR من خلال (1) استبدال طبقة التبديل التقليدية (transpose convolution) بعملية إعادة ترتيب البكسل (pixel shuffle)، و(2) تنفيذ تصميم متعدد المراحل لتلبية مهام تحسين الدقة ذات الدقة العالية ($4\times$). تُظهر التجارب أن النموذج المحسّن لدينا – WaveMixSR-V2 – يتفوق على البنى الأخرى في عدة مهام تحسين الدقة، ويحقق أداءً متقدماً على مستوى الحد الأقصى (state-of-the-art) في مجموعة بيانات BSD100، مع استهلاك أقل للموارد، وفعالية أعلى في عدد المعلمات، وتأخير أقل، وقابلية أعلى للتشغيل (throughput). يمكن الوصول إلى الشفرة المصدرية لدينا من خلال الرابط التالي: https://github.com/pranavphoenix/WaveMixSR.