كشف الكائنات المراقبة ضعيفًا واعٍ بالحالة، مركّز على السياق، وفعال من حيث الذاكرة

أصبح التعلم المُراقب بشكل ضعيف أداة واعدة للكشف عن الكائنات من خلال تقليل الحاجة إلى مراقبة قوية أثناء التدريب. ومع ذلك، تظل هناك تحديات كبيرة: (1) قد يكون التمييز بين نسخ الكائنات غامضًا؛ (2) غالبًا ما يركز الكاشف على أجزاء تمييزية بدلًا من الكائنات بأكملها؛ (3) وبما أن هناك عدم وجود معلومات حقيقية (ground truth)، يجب أن تكون اقتراحات الكائنات مكررة لتحقيق تغطية عالية، مما يؤدي إلى استهلاك كبير للذاكرة. يُعد التغلب على هذه التحديات أمرًا صعبًا، لأنه غالبًا ما يتطلب التخلص من عدم اليقين والحلول التافهة. لمعالجة هذه المشكلات، نطور إطارًا موحدًا يراعي الهوية الفردية ويُركّز على السياق. يعتمد هذا الإطار على خوارزمية تدريب ذاتي تراعي الهوية الفردية، وتقنية DropBlock قابلة للتعلم، إلى جانب تطبيق تغذية رجعية متسلسلة لحزم البيانات بكفاءة في استخدام الذاكرة. تحقق الطريقة المقترحة نتائج منافسة للحالة الراهنة على مجموعة بيانات COCO (12.1% AP، 24.8% AP₅₀)، وVOC 2007 (54.9% AP)، وVOC 2012 (52.1% AP)، مع تحسين كبير على النماذج الأساسية. علاوة على ذلك، تمثل هذه الطريقة أول من قام بقياس أداء نماذج تعتمد على ResNet في الكشف عن الكائنات الضعيف المُراقب في الفيديو. سيتم نشر الكود، النماذج، والتفاصيل الإضافية على: https://github.com/NVlabs/wetectron.