شبكة متعددة الانتباه لتقسيم الدلالة للصور الساتلية عالية الدقة
تُعد التصنيف الدلالي للصور المستشعرة عن بعد من الأدوار المهمة في طيف واسع من التطبيقات، بما في ذلك إدارة الموارد الأرضية، ومراقبة البيوسفير، والتخطيط الحضري. وعلى الرغم من التحسن الكبير في دقة التصنيف الدلالي للصور المستشعرة عن بعد بفضل الشبكات العصبية التلافيفية العميقة، إلا أن النماذج القياسية تواجه عدة قيود. أولاً، في الهياكل المُشفّرة-المُفكّكة مثل U-Net، يؤدي استخدام السمات متعددة المقاييس إلى استغلال غير كافٍ للمعلومات، حيث تُدمج السمات من المستويات الدنيا والمستويات العليا مباشرة دون أي تحسين. ثانيًا، لا يتم استكشاف الاعتماديات طويلة المدى للخرائط المميزة بشكل كافٍ، ما يؤدي إلى تمثيلات مميزة غير مثلى مرتبطة بكل فئة دلالية. ثالثًا، وعلى الرغم من إدخال آلية الانتباه الناتجة عن الضرب النقطي واستخدامها في التصنيف الدلالي لاستيعاب الاعتماديات طويلة المدى، إلا أن الطلب الكبير على الوقت والمساحة الناتج عن آلية الانتباه يعيق استخدامها الفعلي في السيناريوهات التطبيقية التي تتطلب مدخلات كبيرة الحجم. في هذا المقال، تم اقتراح شبكة انتباه متعددة (MANet) لمعالجة هذه المشكلات من خلال استخلاص الاعتماديات السياقية عبر وحدات انتباه فعالة متعددة. كما تم اقتراح آلية انتباه جديدة تُسمى "الانتباه النواة" ذات التعقيد الخطي لتقليل العبء الحسابي الكبير الناتج عن الانتباه. وباستنادًا إلى الانتباه النواة والانتباه القنوي، قمنا بدمج الخرائط المميزة المحلية المستخرجة بواسطة ResNet-50 مع الاعتماديات العالمية المقابلة لها، وإعادة وزن الخرائط القنوية المترابطة بشكل تكيفي. أظهرت التجارب العددية على مجموعتي بيانات كبيرتي الحجم وعالية الدقة للصور المستشعرة عن بعد أداءً متميزًا للشبكة المقترحة MANet. يُمكن الوصول إلى الكود من خلال الرابط التالي: https://github.com/lironui/Multi-Attention-Network.