تعلم التوافق المكاني والهدف للتقسيم الكائنات في الفيديو المستند إلى الذاكرة

يقوم هذا البحث بدراسة مشكلة تقسيم الأشياء في الفيديو شبه المشرف (VOS). أظهرت العديد من الدراسات أن النهج القائم على الذاكرة يمكن أن يكون فعالًا في تقسيم الأشياء في الفيديو. يعتمد معظم هذه النماذج على مطابقة البكسلات على المستوى المكاني والزماني. العيب الرئيسي للنهج القائم على الذاكرة هو أنه لا يأخذ بعين الاعتبار الترتيب التتابعي بين الإطارات ولا يستغل المعرفة على مستوى الشيء من الهدف. لمعالجة هذه المشكلة، نقترح إطار عمل تعلم التجانس المكاني والهدف للتقسيم شبه المشرف للأشياء في الفيديو القائم على الذاكرة، والذي نسميه LCM. يتم تطبيق آلية الذاكرة لاسترجاع البكسلات بشكل عالمي، وفي الوقت نفسه يتعلم التجانس المكاني لتحقيق تقسيم أكثر ثقة. يعزز الاستجابة للموقع تمييزًا أفضل بين الهدف والمشتتات. بالإضافة إلى ذلك، يُدخل LCM علاقة على مستوى الشيء من الهدف للحفاظ على التجانس المستمر للهدف، مما يجعل LCM أكثر مقاومةً للتراكم الخاطئ للأخطاء. تُظهر التجارب أن LCM الخاص بنا حقق أداءً رائدًا في كلا معايير DAVIS و Youtube-VOS. وقد حصلنا على المركز الأول في تحدي DAVIS 2020 لمهام التقسيم شبه المشرف للأشياء في الفيديو (semi-supervised VOS).