HyperAIHyperAI
منذ 13 أيام

شبكة عصبية تلافيفية محسّنة محليًا بالدلالات لتمييز المشاهد الجوية

{Gui-Song Xia, Han Zhang, Kun Qin, Qi Bi}
الملخص

تمييز المشهد الجوي يُعد تحديًا كبيرًا نظرًا لتوزيع الكائنات المعقد وترتيبها المكاني في الصور الجوية ذات المقياس الكبير. حاولت الدراسات الحديثة استكشاف القدرة على تمثيل المعنى المحلي للنماذج القائمة على التعلم العميق، ولكن لا يزال من الضروري معالجة كيفية إدراك المناطق المحلية المهمة بدقة. في هذه الورقة، نقدّم شبكة عصبية تلافيفية محسّنة محليًا من حيث المعنى (LSE-Net) لتمييز المشهد الجوي، والتي تقلّد التمثيل البصري البشري للمناطق المحلية المهمة في المشاهد الجوية، بهدف بناء تمثيل محلي معنوي تمييزي. تتكوّن LSE-Net من مستخرج ميزات تلافيفي محسّن بالسياق، ووحدة إدراك معنوي محلي ثنائي الفرع، وطبقة تصنيف. أولاً، صممنا مشغلات تلافيفية ذات تباعد متعدد المقياس (multi-scale dilated convolution operators) لدمج ميزات تلافيفية متعددة المستويات والمقاييس بطريقة قابلة للتدريب، بهدف استقبال استجابات الميزات المحلية في المشهد الجوي بشكل كامل. ثم، تُقدّم هذه الميزات إلى وحدة الإدراك المعنوي المحلي ذات الفرعين. في هذه الوحدة، صممنا مقياسًا يُعرف بـ "استجابة القمة الفئة المعتمدة على السياق" (CACPR) لتصوير دقيق للإثارة البصرية للمناطق المحلية المهمة والمعلومات السياقية المرتبطة بها. بالإضافة إلى ذلك، تم استخلاص مصفوفة أوزان انتباه مكاني لوصف أهمية كل منطقة محلية مهمة بالنسبة للمنظر الجوي. أخيرًا، تُرسل خرائط الثقة بالفئة المُحسّنة إلى طبقة التصنيف. أظهرت التجارب الشاملة على ثلاث معايير تصنيف للمشاهد الجوية أن LSE-Net تحقق أداءً من الدرجة الأولى (state-of-the-art)، مما يؤكد فعالية وحدة إدراك المعنى المحلي وقياس CACPR.