الغمر الديناميكي المتكرر لفصل الأشياء في الفيديو

شبكات تقسيم الأشياء في الفيديو المستندة إلى ذاكرة الزمان والمكان (STM) عادةً ما تزيد من حجم بنك الذاكرة كل بضع إطارات، مما يظهر أداءً ممتازًا. ومع ذلك، 1) لا يمكن للعتاد تحمل متطلبات الذاكرة المتزايدة باستمرار مع زيادة طول الفيديو. 2) تخزين كمية كبيرة من المعلومات يدخل بلا شك الكثير من الضوضاء، مما لا يساعد على استخراج المعلومات الأكثر أهمية من بنك الذاكرة. في هذا البحث، نقترح استخدام التضمين الديناميكي المتكرر (RDE) لبناء بنك ذاكرة ذو حجم ثابت. بشكل خاص، نولد ونحدث RDE بشكل صريح بواسطة الوحدة المتكاملة الزمانية والمكانية المقترحة (SAM)، والتي تستغل دلالة المعلومات التاريخية. لتجنب تراكم الأخطاء بسبب الاستخدام المتكرر لـ SAM، نقترح خسارة توجيه غير متحيزة خلال مرحلة التدريب، مما يجعل SAM أكثر صلابة في مقاطع الفيديو الطويلة. بالإضافة إلى ذلك، تكون الأقنعة المتوقعة في بنك الذاكرة غير دقيقة بسبب الاستدلال غير الدقيق للشبكة، مما يؤثر على تقسيم الإطار الاستفساري. لحل هذه المشكلة، نصمم استراتيجية تصحيح ذاتي جديدة بحيث يمكن للشبكة إصلاح التضمينات للأقنعة ذات الجودات المختلفة في بنك الذاكرة. تُظهر التجارب الشاملة أن طريقة عملنا تحقق أفضل توازن بين الأداء والسرعة. الرمز متاح على https://github.com/Limingxing00/RDE-VOS-CVPR2022.