استكشاف التحسين المُستلهم من التردد في الترانسفورمر لتحسين استرجاع الصورة الفردية بكفاءة

أظهرت الطرق القائمة على Transformer إمكانات مميزة في تحسين دقة الصور الفردية (SISR) من خلال استخلاص الاعتماديات طويلة المدى بشكل فعّال. ومع ذلك، فإن معظم الأبحاث الحالية في هذا المجال ركّزت على تصميم كتل Transformer لالتقاط المعلومات العالمية، بينما تجاهلت أهمية دمج المُعطيات الترددية العالية، والتي نعتقد أنها قد تكون مفيدة. في دراستنا، أجرينا سلسلة من التجارب ووجدنا أن هياكل Transformer أكثر كفاءة في التقاط المعلومات ذات التردد المنخفض، لكنها تمتلك قدرة محدودة في بناء تمثيلات ذات تردد عالٍ مقارنةً ببنية التحويلات التلافيفية (convolutional). ولهذا، اقترحنا حلًا يُسمى Transformer مُعدّل الميزة المتقاطعة التحسينية التكيفية (CRAFT)، الذي يدمج المزايا المتميزة لكلا النوعين من الهياكل: التلافيفية وTransformer. يتكون CRAFT من ثلاث مكونات رئيسية: كتلة التحسين المتبقية للتردد العالي (HFERB) لاستخلاص المعلومات ذات التردد العالي، وكتلة الانتباه النافذة المستطيلة المنقولة (SRWAB) لالتقاط المعلومات العالمية، وكتلة الدمج الهجين (HFB) لتحسين التمثيل العالمي. ولتقليل التعقيدات المتأصلة في هياكل Transformer، قمنا بوضع طريقة تُسمى التكميم ما بعد التدريب الموجه بالتردد (PTQ)، والتي تهدف إلى تعزيز كفاءة CRAFT. وتشمل هذه الاستراتيجيات تقنيات التقطيع المزدوج التكيفي وتحسين الحدود. ولزيادة تنوع وقابلية تطبيق النهج المقترح، قمنا بتوسيع استراتيجية التكميم هذه لتصبح طريقة عامة للتكميم لتقنيات SISR القائمة على Transformer. وقد أظهرت النتائج التجريبية تفوق CRAFT على أحدث الأساليب المُتاحة، سواء في السيناريوهات ذات الدقة الكاملة أو في السيناريوهات المُكمّمة. وتؤكد هذه النتائج الفعالية والشمولية لاستراتيجية التكميم المُقترحة. يمكن الوصول إلى الكود المصدري من خلال: https://github.com/AVC2-UESTC/Frequency-Inspired-Optimization-for-EfficientSR.git.