التصنيف البصري للInstances في الفيديو باستخدام نموذج اقتراح-تقليل

يهدف التجزئة البصرية للInstances (VIS) إلى تجزئة وربط جميع حالات الفئات المحددة مسبقًا لكل إطار في الفيديو. غالبًا ما تُحصل الطرق السابقة على التجزئة لإطار أو مقطع أولاً، ثم تُدمج النتائج غير الكاملة من خلال تتبع أو مطابقة. قد تؤدي هذه الطرق إلى تراكم الأخطاء في مرحلة الدمج. على العكس، نقترح نموذجًا جديدًا يُسمى "Propose-Reduce" (اقتراح-تقليل)، والذي يُنتج تسلسلات كاملة للفيديو المدخل في خطوة واحدة. كما نقوم ببناء رأس انتشار تسلسلي على شبكة التجزئة للInstances على مستوى الصورة الحالية لضمان الانتشار على المدى الطويل. ولضمان الموثوقية والذكرى العالية في إطارنا المقترح، نقترح عدة تسلسلات، حيث يتم تقليل التسلسلات الزائدة الخاصة بالـ نفس الـ Instance. ونحقق أداءً من الدرجة الأولى على مجموعتي بيانات معيارتين ممثلتين: نحصل على 47.6% من AP على مجموعة التحقق من YouTube-VIS، و70.4% من J&F على مجموعة التحقق من DAVIS-UVOS. يمكن الوصول إلى الكود من خلال: https://github.com/dvlab-research/ProposeReduce.