SuperYOLO: الكشف عن الكائنات المدعوم بالتحديث الفائق في الصور الاستشعار عن بعد متعددة الوسائط

يظل الكشف الدقيق والمتزامن عن الكائنات الصغيرة متعددة المقاييس التي تحتوي على عشرات البكسلات من صور الاستشعار عن بعد (RSI) تحديًا كبيرًا. تعتمد معظم الحلول الحالية على تصميم شبكات عصبية عميقة معقدة لاستخلاص تمثيلات مميزة قوية للكائنات المنفصلة عن الخلفية، وهو ما يؤدي غالبًا إلى عبء حسابي كبير. في هذه الورقة، نقترح طريقة كشف كائنات دقيقة وسريعة لصور الاستشعار عن بعد، تُسمى SuperYOLO، والتي تُدمج البيانات متعددة النماذج وتنفذ كشف الكائنات عالية الدقة (HR) على الكائنات متعددة المقاييس من خلال استخدام تعلم المساعدة في تحسين الدقة (SR) مع أخذ الدقة في الكشف والتكلفة الحسابية بعين الاعتبار. أولاً، نستخدم فرعًا مُدمجًا متماثلًا وصغيرًا للبيانات متعددة النماذج (MF) لاستخلاص معلومات داعمة من مصادر بيانات مختلفة، بهدف تحسين كشف الكائنات الصغيرة في صور الاستشعار عن بعد. ثانيًا، نصمم فرعًا بسيطًا ومرنًا لتعلم تمثيلات الميزات عالية الدقة (HR) التي يمكنها التمييز بين الكائنات الصغيرة والخلفيات الواسعة عند استخدام إدخال منخفض الدقة (LR)، مما يعزز دقة الكشف بشكل إضافي. علاوة على ذلك، لتجنب إدخال عبء حسابي إضافي، يتم التخلص من فرع التحسين في مرحلة الاستنتاج، مما يؤدي إلى تقليل حسابات النموذج بفضل الإدخال منخفض الدقة. تُظهر النتائج التجريبية أن SuperYOLO تحقق دقة تبلغ 75.09% (بمقياس mAP50) على مجموعة بيانات VEDAI الشهيرة لصور الاستشعار عن بعد، وهي أعلى بـ أكثر من 10% من النماذج المتقدمة الكبيرة مثل YOLOv5l وYOLOv5x وYOLOrs المصممة خصيصًا لصور الاستشعار عن بعد. وفي الوقت نفسه، تكون حجم المعلمات وقيمة GFLOPs لـ SuperYOLO حوالي 18 و3.8 مرة أقل على التوالي مقارنة بـ YOLOv5x. يُظهر النموذج المقترح توازنًا ملائمًا بين الدقة والسرعة مقارنة بالنماذج الرائدة في مجالها. سيتم إتاحة الكود المصدر على منصة GitHub عبر الرابط التالي: https://github.com/icey-zhang/SuperYOLO.