نموذج FPN معقّم للضوضاء مع R-CNN قائم على محول للكشف عن الكائنات الصغيرة

على الرغم من التقدم الملموس في مجال الرؤية الحاسوبية، لا يزال الكشف الدقيق عن الكائنات الصغيرة يشكل تحديًا كبيرًا، وذلك بشكل رئيسي بسبب التمثيل البكسلية الضئيل المخصص لهذه الكائنات في بيانات الصور. ويُظهر هذا التحدي تأثيرًا عميقًا في مجال العلوم الجيولوجية والاستشعار عن بعد، حيث يمكن أن يُسهم الكشف بدقة عن الكائنات الصغيرة في دعم مجموعة واسعة من التطبيقات، بدءًا من التخطيط الحضري ووصولًا إلى الرصد البيئي. في هذه الورقة، نقترح إطارًا جديدًا يُسمى DeNoising FPN مع Trans R-CNN (DNTR) لتحسين أداء الكشف عن الكائنات الصغيرة. يتكوّن DNTR من تصميم سهل التثبيت، وهو DeNoising FPN (DN-FPN)، ومحرّك مبني على التحويل (Transformer) فعّال، يُسمى Trans R-CNN. بشكل خاص، يُعد تجميع الميزات في شبكة الهرم المميزات (Feature Pyramid Network) أمرًا بالغ الأهمية للكشف عن الكائنات متعددة المقاييس. ومع ذلك، قد تُنتج ميزات ضوضائية أثناء عملية التجميع، نظرًا لعدم وجود تنظيم (regularization) بين الميزات المُستخرجة من مقاييس مختلفة. لذلك، نقدّم وحدة DN-FPN التي تستخدم التعلم التبايني (contrastive learning) لقمع الضوضاء في ميزات كل مستوى ضمن المسار العلوي-السفلي (top-down path) لشبكة FPN. ثانيًا، وباستنادًا إلى الإطار ذي المرحلة المزدوجة، نستبدل مُكتشف R-CNN القديم بمحرّك جديد يُسمى Trans R-CNN، بهدف التركيز على تمثيل الكائنات الصغيرة باستخدام آلية الانتباه الذاتي (self-attention). تُظهر النتائج التجريبية أن DNTR يتفوّق على النماذج الأساسية بنسبة لا تقل عن 17.4% من حيث APvt على مجموعة بيانات AI-TOD، وبنسبة لا تقل عن 9.6% من حيث AP على مجموعة بيانات VisDrone. سيتم إتاحة كود المشروع على الرابط: https://github.com/hoiliu-0801/DNTR.