تحسين الكشف عن الأشياء من خلال التعلم التبايني المحلي-العالمي

غالباً ما تؤثر الفجوات في المجال البصري على أداء اكتشاف الأشياء. يمكن أن يخفف الترجمة من صورة إلى صورة من هذا التأثير، حيث تمكن النماذج المقارنة من تعلم التحويل بين الصور في بيئات غير مراقبة. ومع ذلك، غالباً ما تفشل الطرق الحالية في التعامل مع المشاهد الغنية بالمحتوى والتي تحتوي على العديد من نماذج الأشياء، مما يظهر في أداء اكتشاف غير راضٍ. يتم الحصول عادةً على حساسية لمثل هذه المحتويات على مستوى النموذج فقط من خلال شروحات الأشياء، والتي قد تكون باهظة الثمن للحصول عليها. بهدف معالجة هذه المشكلة، نقدم طريقة جديدة للترجمة من صورة إلى صورة تستهدف بشكل خاص اكتشاف الأشياء عبر المجالات. نصيغ نهجنا كإطار للتعلم المقارن مع سابقة استقرائية تحسّن مظهر نماذج الأشياء من خلال أقنعة الانتباه المكاني، مما يفصل الضوء ضمنياً إلى المناطق الأمامية المرتبطة بنماذج الأشياء المستهدفة والمناطق الخلفية التي لا تحتوي على أشياء. بدلاً من الاعتماد على شروحات الأشياء لحساب نماذج الأشياء بشكل صريح أثناء الترجمة، يتعلم نهجنا تمثيل الأشياء عن طريق مقارنة المعلومات المحلية-العالمية. هذا يتيح لنا دراسة تحدي قليل الاستكشاف: تحقيق اكتشاف فعّال تحت تحولات المجال دون الاعتماد على شروحات الأشياء أو تعديل نموذج الكاشف. قمنا بإجراء تجارب باستخدام إعدادات متعددة لاكتشاف الأشياء عبر المجالات عبر ثلاثة مقاييس صعبة وسجلنا أفضل أداء حالي.صفحة المشروع: https://local-global-detection.github.io