الانتباه النافذة المقسم حسب القناة وتعلّم التردد لتحسين جودة الصورة الفردية

في الآونة الأخيرة، أظهرت أساليب الانتباه القائمة على النوافذ إمكانات كبيرة في المهام المتعلقة بالرؤية الحاسوبية، خصوصًا في تكبير الصور الفردية (SISR). ومع ذلك، قد تفشل في التقاط الاعتماديات طويلة المدى والعلاقات بين الرموز البعيدة. بالإضافة إلى ذلك، لاحظنا أن التعلم في المجال المكاني لا يعكس محتوى الترددات في الصورة، وهو جانب بالغ الأهمية في SISR. لمعالجة هذه التحديات، نقترح نموذجًا جديدًا يُسمى "مُنتِقِد الانتباه المُقسَّم حسب القنوات" (CPAT)، الذي يُحسّن من قدرة التقاط الاعتماديات طويلة المدى من خلال توسيع النوافذ تسلسليًا على طول ارتفاع وعرض خرائط الميزات. علاوةً على ذلك، نقترح وحدة تفاعل جديدة تُسمى "وحدة التفاعل بين المجال المكاني والتكراري" (SFIM)، والتي تدمج المعلومات من المجالين المكاني والتكراري لتوفير معلومات أكثر شمولاً من خرائط الميزات، بما في ذلك معلومات عن محتوى الترددات، وتعزز مجال الاستقبال عبر الصورة بأكملها. أظهرت النتائج التجريبية فعالية الوحدات والهيكل المُقترح. وبخاصة، تتفوق CPAT على أحدث الطرق المُتاحة بفارق يصل إلى 0.31 ديسيبل عند معامل التكبير x2 على مجموعة Urban100.