الكشف عن الأشياء بوساطة النشاط تحت إشراف ضعيف

الكشف عن الأشياء تحت الإشراف الضعيف يهدف إلى تقليل كمية الإشراف المطلوبة لتدريب نماذج الكشف. يتم تعلم هذه النماذج تقليديًا من صور أو مقاطع فيديو مصنفة فقط بالفئة الخاصة بالشيء وليس بحده المكاني. في عملنا، نحاول الاستفادة ليس فقط من علامات فئات الأشياء ولكن أيضًا من علامات الأنشطة المرتبطة بالبيانات. نظهر أن النشاط المعروض في الصورة أو الفيديو يمكن أن يوفر مؤشرات قوية حول موقع الشيء المرتبط به. نتعلم أولوية مكانية للشيء تعتمد على النشاط (مثل "كرة" تكون أقرب إلى "ساق الشخص" في "ركل كرة")، وندمج هذه الأولوية لتدريب نموذج مشترك لكشف الأشياء تصنيف الأنشطة بشكل متزامن. أجرينا تجارب على مجموعات بيانات الفيديو ومجموعات بيانات الصور لتقييم أداء نموذج الكشف عن الأشياء تحت الإشراف الضعيف لدينا. حققت طريقتنا أفضلية بنسبة تزيد عن 6% في mAP (متوسط الدقة عند التقاط العتبة) على مجموعة بيانات الفيديو Charades (شارادز).