التمييز الزمني المتسق لقطع الفيديو باستخدام الذاكرة الهجينة

تواجه طرق تقسيم الكائنات المرجعية في الفيديو (R-VOS) تحديات في الحفاظ على تقسيم كائنات متسقة بسبب تباين السياق الزمني وجودة الكائنات المرئية المشابهة. نقترح نموذجًا شاملًا لـ R-VOS يُعد بشكل صريح النسخ المتماثلة للحالة الزمنية إلى جانب التقسيم المرجعي. وبشكل خاص، نقدم ذاكرة هجينة جديدة تسهل التعاون بين الإطارات لتحقيق مطابقة وانتشار متين في الزمان والمكان. يتم انتشار خصائص الإطارات ذات الأقنعة المرجعية عالية الجودة والمولدة تلقائيًا لتقسيم الإطارات المتبقية بناءً على الارتباط متعدد الحبيبات لتحقيق تقسيم R-VOS زمنيًا متسقًا. بالإضافة إلى ذلك، نقترح مؤشر جديد يُسمى مؤشر التوافق القناعي (MCS) لتقييم توافق الفيديو الزمني. تظهر التجارب الواسعة أن نهجنا يعزز التوافق الزمني بمقدار كبير، مما يؤدي إلى أداء متميز على مقاييس R-VOS الشهيرة مثل Ref-YouTube-VOS (67.1%) و Ref-DAVIS17 (65.6%). يمكن الحصول على الرمز البرمجي من https://github.com/bo-miao/HTR.