الاستماع الشريطي لاستعادة الصور
بصفتها مهمة طويلة الأمد، يهدف استرجاع الصور إلى استعادة الصورة الحادة الكامنة من نسخة معوّرة لها. في السنوات الأخيرة، وبفضل القوة العالية للانتباه الذاتي في التقاط الاعتماديات طويلة المدى، حققت الطرق القائمة على نموذج الترانسفورمر أداءً واعدًا في مهام استرجاع الصور المتنوعة. ومع ذلك، فإن الانتباه الذاتي التقليدي يؤدي إلى تعقيد تربيعي بالنسبة لحجم المدخلات، مما يعيق تطبيقاته المستقبلية في مجال استرجاع الصور. في هذا البحث، نقترح شبكة انتباه شريطي (SANet) لاسترجاع الصور بهدف دمج المعلومات بطريقة أكثر كفاءة وفعالية. بشكل خاص، نُقدِّم وحدة انتباه شريطي لاستخلاص المعلومات السياقية لكل بكسل من البكسلات المجاورة له في نفس الصف أو العمود. وباستخدام هذه العملية في اتجاهات مختلفة، يمكن لكل موقع اكتساب معلومات من منطقة ممتدة. علاوةً على ذلك، نطبّق مجالات استقبال مختلفة في مجموعات مميزة مختلفة لتعزيز التعلم التمثيلي. وبدمج هذه التصاميم في هيكل أساسي على شكل حرف U، تُظهر SANet أداءً متميزًا مقارنةً بأفضل الخوارزميات الحالية في عدة مهام استرجاع الصور. يمكن الوصول إلى الكود من خلال الرابط التالي: https://github.com/c-yn/SANet.