SCAResNet: نسخة من ResNet مُحسَّنة للكشف عن الأشياء الصغيرة جدًا في أبراج النقل والتوزيع

الشبكات التقليدية للكشف عن الأشياء المستندة إلى التعلم العميق غالبًا ما تقوم بتكبير أو تصغير الصور خلال مرحلة معالجة البيانات الأولية لتحقيق حجم وقياس موحد في خريطة الميزات. يتم إجراء التكبير والتصغير تسهيلًا لنشر النموذج والتوصيف المتصل بالكامل. ومع ذلك، يؤدي التكبير والتصغير حتمًا إلى تشوه الأشياء وخسارة المعلومات القيمة في الصور. تصبح هذه العيوب واضحة بشكل خاص بالنسبة للأجسام الصغيرة مثل أبراج التوزيع ذات الأشكال الخطية والبكسلات القليلة. لحل هذه المشكلة، نقترح التخلي عن عملية التكبير والتصغير. بدلاً من ذلك، نقدم انتباه متعدد الرؤوس عبر تقاطع (Positional-Encoding Multi-head Criss-Cross Attention). هذا يسمح للنموذج باستخلاص المعلومات السياقية والتعلم من فضاءات تمثيل متعددة، مما يغني المعاني لأبراج التوزيع بشكل فعال. بالإضافة إلى ذلك، نعزز تقنية تجميع الهرم المكاني (Spatial Pyramid Pooling) بإعادة تشكيل ثلاث خرائط ميزات متجمعة إلى واحدة موحدة جديدة بينما نقلل أيضًا من العبء الحسابي. يتيح هذا النهج للصور ذات الأحجام والقياسات المختلفة إنتاج خرائط ميزات ذات أبعاد موحدة ويمكن استخدامها في نشر خريطة الميزات. يتضمن شبكتنا SCAResNet هذه التحسينات المذكورة سابقًا في الشبكة الأساسية ResNet. قمنا بتقييم SCAResNet باستخدام مجموعة بيانات صور البنية التحتية لنقل وتوزيع الكهرباء من جامعة دوك (Duke University). بدون أي حيل إضافية، استخدمنا مجموعة متنوعة من نماذج الكشف عن الأجسام مع تعيين تسميات مستند إلى المجال الاستقبالي الجاوس (Gaussian Receptive Field based Label Assignment) كأساس للمقارنة. عند دمج SCAResNet في النموذج الأساسي، حققنا تحسنًا بنسبة 2.1% في قيمة mAPs. وهذا يظهر المزايا التي توفرها SCAResNet في الكشف عن أبراج النقل والتوزيع وأهميتها في الكشف عن الأجسام الصغيرة جدًا. يمكن الوصول إلى شفرة المصدر على الرابط https://github.com/LisavilaLee/SCAResNet_mmdet.