اختيار الإطار المرجعي السهل تكرارياً يجعل تقسيم الكائنات في الفيديو بدون إشراف أسهل

التفصيل غير المشرف للأشياء في الفيديو (UVOS) هو مشكلة تصنيف ثنائية لكل بكسل تهدف إلى فصل الكائن الأمامي عن الخلفية في الفيديو دون استخدام قناع الحقيقة الأرضية (GT) للكائن الأمامي. معظم النماذج السابقة لـ UVOS تستخدم الإطار الأول أو الفيديو بأكمله كإطار مرجعي لتحديد قناع الكائن الأمامي. سؤالنا هو لماذا يجب اختيار الإطار الأول كإطار مرجعي أو لماذا يجب استخدام الفيديو بأكمله لتحديد القناع. نعتقد أننا يمكن أن نختار إطارًا مرجعيًا أفضل لتحقيق أداء أفضل في التفصيل غير المشرف للأشياء في الفيديو من استخدام الإطار الأول فقط أو الفيديو بأكمله كإطار مرجعي. في ورقتنا، نقترح نظام اختيار الإطارات السهل (EFS). يمكّننا EFS من اختيار إطارة مرجعية "سهلة" تجعل عملية التفصيل اللاحقة للأشياء في الفيديو أسهل، مما يحسن أداء التفصيل. بالإضافة إلى ذلك، نقترح إطار عمل جديد باسم التنبؤ المتكرر بالقناع (IMP). في هذا الإطار العمل، نعيد تطبيق EFS على الفيديو المعطى واختيار إطارة مرجعية "أسهل" من الفيديو من الجولة السابقة، مما يزيد تدريجيًا من أداء التفصيل للأشياء في الفيديو. يتكون IMP من EFS، التنبؤ بالقناع ثنائي الاتجاه (BMP)، وتحديث المعلومات الزمنية (TIU). من خلال الإطار العمل المقترح، حققنا أداءً رائدًا في ثلاثة مجموعات Benchmarks لـ UVOS: DAVIS16، FBMS، وSegTrack-V2.