معالجة تشتيت الخلفية في تقسيم الأشياء في الفيديو

تهدف تقنية التقطيع شبه المشرف للكائنات في الفيديو (VOS) إلى تتبع كائنات معينة بشكل كثيف في مقاطع الفيديو. من بين التحديات الرئيسية لهذه المهمة وجود ملهيات خلفية تبدو مشابهة للأهداف المراد تتبعها. نقترح ثلاث استراتيجيات جديدة لقمع هذه الملهيات: 1) مخطط بناء قوالب متنوعة زمانيًا ومكانيًا للحصول على خصائص عامة للأهداف المراد تتبعها؛ 2) دالة تقييم المسافة القابلة للتعلم لاستبعاد الملهيات البعيدة مكانيًا من خلال استغلال التجانس الزمني بين الإطارات المتتالية؛ 3) زيادة التعقيد من خلال تبديل وربط الكائنات لإجبار كل كائن على امتلاك خصائص فريدة بتقديم عينات تدريب تحتوي على كائنات متداخلة. في جميع قواعد البيانات القياسية العامة، يحقق نموذجنا أداءً مكافئًا لأحدث الأساليب الرائدة، حتى مع الأداء الفوري. كما أن النتائج النوعية تظهر أيضًا تفوق أسلوبنا على الأساليب الحالية. نعتقد أن أسلوبنا سيبنى عليه بشكل واسع في أبحاث VOS المستقبلية.