HyperAIHyperAI
منذ 4 أشهر

التمييز الإقليمي للكائنات في الفيديو باستخدام نمذجة الحركة العميقة

Bo Miao; Mohammed Bennamoun; Yongsheng Gao; Ajmal Mian
التمييز الإقليمي للكائنات في الفيديو باستخدام نمذجة الحركة العميقة
الملخص

الطرق الحالية للتقسيم شبه المشرف للكائنات في الفيديو (VOS) تستخدم عادةً جميع خصائص الإطار الواحد لتوقع أقنعة الكائنات وتحديث الذاكرة. وهذا يُدخل حسابات زائدة كبيرة. لتخفيض هذه الزائد، نقدم منهجية التقسيم شبه المشرف للكائنات في الفيديو التي تعتمد على المناطق (RAVOS) والتي تتوقع المناطق ذات الاهتمام (ROIs) لتحقيق تقسيم كائنات فعال وخزن ذاكرة. يتضمن RAVOS متعقب حركة سريعًا لكائنات لتوقع ROIs الخاصة بهم في الإطار التالي. لتحقيق تقسيم فعال، يتم استخراج خصائص الكائنات وفقًا لـ ROIs، ويتم تصميم محكّم كائنات لتقسيم مستوى الكائن. لتحقيق تخزين ذاكرة فعال، نقترح ذاكرة مسار الحركة لتصفية السياق الزائد من خلال تخزين الخصائص داخل مسار حركة الكائنات بين إطاراتين. بالإضافة إلى RAVOS، نقترح أيضًا مجموعة بيانات كبيرة النطاق، تُعرف بـ OVOS، لتقييم أداء نماذج VOS تحت ظروف الاختفاء. التقييم على مقاييس DAVIS وYouTube-VOS ومجموعتنا الجديدة من البيانات OVOS يظهر أن طريقتنا تحقق أداءً رائدًا مع زمن استدلال أسرع بكثير، مثل 86.1 J&F بمعدل 42 إطارًا في الثانية على DAVIS و84.4 J&F بمعدل 23 إطارًا في الثانية على YouTube-VOS.