HyperAIHyperAI
منذ 17 أيام

تفعيل عدد أكبر من البكسلات في محول تحسين دقة الصورة

Xiangyu Chen, Xintao Wang, Jiantao Zhou, Yu Qiao, Chao Dong
تفعيل عدد أكبر من البكسلات في محول تحسين دقة الصورة
الملخص

أظهرت الطرق المستندة إلى Transformer أداءً متميزًا في المهام البصرية منخفضة المستوى، مثل تحسين دقة الصور. ومع ذلك، وجدنا من خلال تحليل التخصيص أن هذه الشبكات قادرة فقط على استغلال مدى مكاني محدود من معلومات الإدخال. ويشير هذا إلى أن الإمكانات الكاملة لـ Transformer لم تُستغل بعد بالكامل في الشبكات الحالية. ولتحفيز استخدام عدد أكبر من بكسلات الإدخال لتحقيق إعادة بناء أفضل، نقترح نموذجًا جديدًا يُدعى "Transformer الانتباه الهجين" (HAT). يجمع هذا النموذج بين نمط الانتباه القنوي (channel attention) ونمط الانتباه الذاتي القائم على النوافذ (window-based self-attention)، مما يسمح باستغلال المزايا المكملة لكل منهما: القدرة على استغلال الإحصائيات العالمية، بالإضافة إلى القدرة القوية على التكيف المحلي. علاوةً على ذلك، لتحسين تجميع المعلومات بين النوافذ المختلفة، نُدخل وحدة انتباه متقاطع متشابكة (overlapping cross-attention module) لتعزيز التفاعل بين ميزات النوافذ المجاورة. وفي مرحلة التدريب، نعتمد أيضًا استراتيجية تدريب مسبق على نفس المهمة (same-task pre-training) لاستغلال الإمكانات الكامنة في النموذج لتحقيق تحسين إضافي. تُظهر التجارب الواسعة فعالية الوحدات المقترحة، ونقوم بتوسيع النموذج لتأكيد أن أداء هذه المهمة يمكن تحسينه بشكل كبير. يتفوق نهجنا العام على أفضل الطرق الحالية بمقدار أكثر من 1 ديسيبل. يمكن الوصول إلى الشفرة والنماذج عبر الرابط: https://github.com/XPixelGroup/HAT.

تفعيل عدد أكبر من البكسلات في محول تحسين دقة الصورة | أحدث الأوراق البحثية | HyperAI