التمييز الإقليمي للكائنات في الفيديو باستخدام نمذجة الحركة العميقة

الطرق الحالية للتقسيم شبه المشرف للكائنات في الفيديو (VOS) تستخدم عادةً جميع خصائص الإطار الواحد لتوقع أقنعة الكائنات وتحديث الذاكرة. وهذا يُدخل حسابات زائدة كبيرة. لتخفيض هذه الزائد، نقدم منهجية التقسيم شبه المشرف للكائنات في الفيديو التي تعتمد على المناطق (RAVOS) والتي تتوقع المناطق ذات الاهتمام (ROIs) لتحقيق تقسيم كائنات فعال وخزن ذاكرة. يتضمن RAVOS متعقب حركة سريعًا لكائنات لتوقع ROIs الخاصة بهم في الإطار التالي. لتحقيق تقسيم فعال، يتم استخراج خصائص الكائنات وفقًا لـ ROIs، ويتم تصميم محكّم كائنات لتقسيم مستوى الكائن. لتحقيق تخزين ذاكرة فعال، نقترح ذاكرة مسار الحركة لتصفية السياق الزائد من خلال تخزين الخصائص داخل مسار حركة الكائنات بين إطاراتين. بالإضافة إلى RAVOS، نقترح أيضًا مجموعة بيانات كبيرة النطاق، تُعرف بـ OVOS، لتقييم أداء نماذج VOS تحت ظروف الاختفاء. التقييم على مقاييس DAVIS وYouTube-VOS ومجموعتنا الجديدة من البيانات OVOS يظهر أن طريقتنا تحقق أداءً رائدًا مع زمن استدلال أسرع بكثير، مثل 86.1 J&F بمعدل 42 إطارًا في الثانية على DAVIS و84.4 J&F بمعدل 23 إطارًا في الثانية على YouTube-VOS.