HyperAIHyperAI
منذ 17 أيام

مُحَوِّل التجميع المزدوج للتصحيح العالي للصورة

Zheng Chen, Yulun Zhang, Jinjin Gu, Linghe Kong, Xiaokang Yang, Fisher Yu
مُحَوِّل التجميع المزدوج للتصحيح العالي للصورة
الملخص

لقد اكتسبت نموذج Transformer شعبية كبيرة مؤخرًا في المهام البصرية منخفضة المستوى، بما في ذلك استرجاع الصور عالي الدقة (SR). تعتمد هذه الشبكات على الانتباه الذاتي على مختلف الأبعاد، سواء الفضائية أو القنواتية، وتحقيق أداءً مبهرًا. وهذا يلهمنا بدمج هذين البعدين في نموذج Transformer لتحقيق قدرة تمثيلية أكثر قوة. بناءً على هذه الفكرة، نقترح نموذجًا جديدًا لـ Transformer يُسمى "Transformer ثنائي التجميع" (DAT) للتعامل مع استرجاع الصور عالي الدقة. يجمع نموذج DAT السمات عبر الأبعاد الفضائية والقنواتية بطريقة مزدوجة داخل الكتلة وخارجها. وبشكل محدد، نطبق بشكل متتالي الانتباه الذاتي الفضائي والانتباه الذاتي القنواتي في كتل Transformer متتالية. وتمكّن هذه الاستراتيجية المتكررة نموذج DAT من التقاط السياق العالمي وتحقيق تجميع السمات بين الكتل. علاوةً على ذلك، نقترح وحدة التفاعل التكيفية (AIM) وشبكة التغذية الأمامية ذات البوابة الفضائية (SGFN) لتحقيق تجميع السمات داخل الكتلة. حيث تكمل وحدة AIM آليتي الانتباه الذاتي من الأبعاد المقابلة، في حين تُضفي شبكة SGFN معلومات فضائية غير خطية إضافية داخل شبكة التغذية الأمامية. تُظهر التجارب الواسعة أن نموذج DAT يتفوق على الطرق الحالية. يمكن الحصول على الكود والنموذج من خلال الرابط التالي: https://github.com/zhengchen1999/DAT.