شبكة ذاكرة مُستندة إلى التحويل النووي للفصل الكائنات في الفيديو

يُعد التجزئة الكائنية للفيديو شبه المُراقبة (VOS) مهمة تتضمن توقع الكائن المستهدف في فيديو، عندما تكون قناع التجزئة الحقيقي (ground truth segmentation mask) للكائن المستهدف مُعطى في الإطار الأول. في الآونة الأخيرة، لاقت شبكات الذاكرة الفضائية-الزمنية (STM) اهتمامًا كبيرًا كحل واعد للتعامل مع هذه المهمة. ومع ذلك، يُتجاهل نقطة مهمة عند تطبيق STM على VOS: فالحل (STM) غير محلي، بينما المشكلة (VOS) هي في الغالب محلية. ولحل هذا التناقض بين STM وVOS، نقترح شبكة ذاكرة مُعاد تشكيلها باستخدام دوال نواة (KMN). قبل التدريب على مقاطع فيديو حقيقية، يتم تدريب KMN مسبقًا على صور ثابتة، تمامًا كما في الدراسات السابقة. ولكن على عكس الدراسات السابقة، نستخدم استراتيجية "الإخفاء والبحث" (Hide-and-Seek) أثناء التدريب المسبق، بهدف تحقيق أفضل النتائج الممكنة في التعامل مع حالات التغطية (الإغلاق) واستخلاص حدود التجزئة. تفوق KMN الحلول الحالية على المعايير القياسية بشكل ملحوظ (+5% على مجموعة اختبار DAVIS 2017 test-dev). علاوةً على ذلك، فإن زمن التنفيذ لـ KMN يبلغ 0.12 ثانية لكل إطار على مجموعة التحقق من DAVIS 2016، كما أن KMN نادرًا ما تتطلب حسابات إضافية مقارنةً بـ STM.