ReDet: كاشف متوازن للدوران للكشف عن الكائنات الجوية

في الآونة الأخيرة، أصبح الكشف عن الأجسام في الصور الجوية موضوعًا يحظى باهتمام كبير في مجال الرؤية الحاسوبية. على عكس الأجسام في الصور الطبيعية، غالبًا ما تكون الأجسام الجوية موزعة باتجاهات عشوائية. ولهذا السبب، يتطلب الكاشف عددًا أكبر من المعاملات لتمثيل معلومات الاتجاه، والتي تكون غالبًا مكررة للغاية وغير فعّالة. علاوةً على ذلك، نظرًا لأن الشبكات العصبية التلافيفية التقليدية (CNNs) لا تُمثّل بشكل صريح تغيرات الاتجاه، فإن الحاجة إلى كميات كبيرة من البيانات المُعدّلة بالدوران (rotation-augmented data) تصبح ضرورية لتدريب كاشف دقيق للجسم. في هذا البحث، نقترح كاشفًا مُتميّزًا بالتكيف مع الدوران (Rotation-equivariant Detector - ReDet) لمعالجة هذه التحديات، حيث يُشغّل بشكل صريح تكيّف الدوران (rotation equivariance) والثبات تجاه الدوران (rotation invariance). وبشكل أكثر دقة، ندمج شبكات متكيفة مع الدوران في الكاشف لاستخلاص ميزات متكيفة مع الدوران، التي يمكنها التنبؤ بدقة باتجاه الجسم، مما يؤدي إلى تقليل كبير في حجم النموذج. وباستخدام هذه الميزات المتكيفة مع الدوران، نقدّم أيضًا تقنية "تماثل منطقة الاهتمام المُتميّز بالثبات تجاه الدوران" (Rotation-invariant RoI Align - RiRoI Align)، التي تستخرج تلقائيًا ميزات ثابتة تجاه الدوران من الميزات المتكيفة، بناءً على اتجاه منطقة الاهتمام (RoI). أظهرت التجارب الواسعة على عدة مجموعات بيانات صعبة للصور الجوية (DOTA-v1.0، DOTA-v1.5، وHRSC2016) أن طريقةنا تحقق أداءً من الدرجة الأولى في مهام الكشف عن الأجسام الجوية. مقارنةً بأفضل النتائج السابقة، يحقق ReDet تحسينًا بنسبة 1.2 و3.5 و2.6 نقطة في مقياس mAP على DOTA-v1.0 وDOTA-v1.5 وHRSC2016 على التوالي، مع تقليل عدد المعاملات بنسبة 60٪ (من 313 ميغابايت إلى 121 ميغابايت). يمكن الوصول إلى الشيفرة المصدرية من خلال الرابط التالي: \url{https://github.com/csuhan/ReDet}.