HMANet: شبكة تجميع متعددة المحاور هجينة لتحسين دقة الصور

أظهرت الطرق المستندة إلى المُحَوِّل (Transformer) أداءً ممتازًا في المهام البصرية لزيادة الدقة (Super-Resolution)، متفوقةً على الشبكات العصبية التلافيفية التقليدية. ومع ذلك، تقتصر الدراسات الحالية عادةً على تقييد عملية الانتباه الذاتي (self-attention) داخل نوافذ غير متداخلة بهدف تقليل التكاليف الحسابية. وهذا يعني أن الشبكات المستندة إلى المُحَوِّل يمكنها فقط استخدام المعلومات من نطاق مكاني محدود. ولذلك، تم اقتراح شبكة جديدة تُسمى "الشبكة الهجينة لجمع المحاور المتعددة" (HMA) في هذه الورقة بهدف استغلال المعلومات المميزة في الميزات بشكل أفضل. تُبنى HMA عن طريق تجميع وحدات المُحَوِّل الهجينة المُتكررة (RHTB) ووحدات الانتباه الشبكي (GAB). من جهة، تجمع وحدة RHTB بين انتباه القنوات (channel attention) والانتباه الذاتي لتعزيز دمج الميزات غير المحلية وتحقيق نتائج بصرية أكثر جاذبية. من جهة أخرى، تُستخدم وحدة GAB في تفاعل المعلومات عبر المجالات المختلفة لتمثيل الميزات المشابهة بشكل مشترك والحصول على مجال إدراكي أوسع. وبالنسبة لمهام زيادة الدقة أثناء مرحلة التدريب، تم تصميم طريقة جديدة للتدريب المسبق (pre-training) لتعزيز قدرات التمثيل الخاصة بالنموذج، وتأكيد فعالية النموذج المقترح من خلال عدد من التجارب. وأظهرت النتائج التجريبية أن HMA تتفوق على أحدث الطرق المنشورة على مجموعة بيانات المعيار. ونقدم الكود والنموذج على الرابط التالي: https://github.com/korouuuuu/HMA.