التمييز بين الحالات في الفيديو دون استخدام القناع

التطور الحديث في تقسيم الحالات الفيديوية (VIS) قد تم بشكل كبير بفضل استخدام نماذج مبنية على المتحولات (Transformers) أعمق وأكثر جوعًا للبيانات. ومع ذلك، فإن تسمية الأقنعة الفيديوية هي عملية مرهقة وغالية الثمن، مما يحد من حجم ومتنوعية قواعد البيانات الحالية لتقسيم الحالات الفيديوية. في هذا العمل، نهدف إلى إزالة متطلب تسمية الأقنعة. نقترح طريقة MaskFreeVIS، التي تحقق أداءً تنافسيًا عاليًا في تقسيم الحالات الفيديوية باستخدام فقط تسميات الصناديق الحدودية للحالة الكائنية. نستفيد من القيود الزمنية الغنية للاستقرار القناع في الفيديوهات من خلال تقديم خسارة KNN-الشظايا الزمنية (TK-Loss)، والتي توفر رقابة قوية على الأقنعة دون أي تسميات. تقوم خسارتنا الزمنية KNN-الشظايا بإيجاد مطابقات واحدة إلى العديد عبر الإطارات، من خلال خطوة مطابقة شظايا فعالة تليها اختيار K-أقرب جارٍ. ثم يتم فرض خسارة الاستقرار على المطابقات المكتشفة. هدفنا الخالي من الأقنعة سهل التنفيذ، ليس له أي معاملات قابلة للتدريب، وهو كفوء حسابيًا، ومع ذلك فإنه يتفوق على الأساليب الأساسية التي تستعمل، مثل التدفق البصري الأكثر حداثة لفرض استقرار القناع الزمني. نحن نتحقق من صحة MaskFreeVIS على مقاييس YouTube-VIS 2019/2021 وOVIS وBDD100K MOTS. تظهر النتائج بوضوح فعالية طرقنا عن طريق تقليص الفجوة بشكل كبير بين أداء تقسيم الحالات الفيديوية بالرقابة الكاملة والرقابة الضعيفة. كودنا والنماذج المدربة متاحة على https://github.com/SysCV/MaskFreeVis.