Domain Adaptive Faster R-CNN للكشف عن الأشياء في البيئة المفتوحة

عادةً ما يفترض اكتشاف الأشياء أن البيانات التدريبية والاختبارية مستخرجة من توزيع متطابق، ولكن هذا الافتراض لا يتحقق دائمًا في الممارسة العملية. سيؤدي مثل هذا الاختلاف في التوزيع إلى انخفاض كبير في الأداء. في هذا العمل، نهدف إلى تحسين متانة اكتشاف الأشياء عبر المجالات المختلفة. نعالج الانحراف النطاقي على مستويين: 1) الانحراف النطاقي على مستوى الصورة، مثل أسلوب الصورة والإضاءة وما إلى ذلك، و2) الانحراف النطاقي على مستوى الحالة، مثل مظهر الشيء وحجمه وما إلى ذلك. نبني نهجنا على أساس أحدث نموذج فائق السرعة R-CNN (Faster R-CNN)، ونصمم مكونين للتكيف النطقي، أحدهما على مستوى الصورة والآخر على مستوى الحالة، لخفض الاختلاف النطقي. يتم تنفيذ هذين المكونين للتكيف النطقي بناءً على نظرية H-التباعد (H-divergence)، وذلك من خلال تعلم تصنيف نطاق في إطار التدريب المعادي (adversarial training). يتم تعزييز تصنيفات النطاق على المستويات المختلفة بمزيد من التنظيم الثابت لتعلم شبكة اقتراح المناطق التي لا تتغير مع النطاق (RPN) في نموذج فائق السرعة R-CNN. قمنا بتقييم نهجنا المقترح حديثًا باستخدام عدة مجموعات بيانات بما في ذلك Cityscapes و KITTI و SIM10K وغيرها. أظهرت النتائج فعالية نهجنا المقترح في اكتشاف الأشياء بشكل متين في سيناريوهات مختلفة للانحراف النطقي.