نهج استنتاجي للفصل الكائنات في الفيديو

يهدف التجزئة المراقبة شبه التلقائية للكائنات في الفيديو إلى فصل كائن مستهدف عن تسلسل فيديو، بالاعتماد على القناع المُعطى في الإطار الأول. تعتمد معظم الطرق السائدة حاليًا على معلومات من وحدات إضافية تم تدريبها في مجالات أخرى مثل التدفق البصري وتقسيم الكائنات، مما يجعلها لا تتنافس بشكل عادل مع الطرق الأخرى على قدم المساواة. لمعالجة هذه المشكلة، نقترح طريقة بسيطة لكنها قوية من نوع التعميم التحويلي (transductive)، لا تتطلب وحدات إضافية، ولا بيانات تدريب إضافية، ولا تصميمات معمارية خاصة. تعتمد طريقتنا على نهج نقل التسميات، حيث تُنقل تسميات البكسل إلى الأمام بناءً على التشابه المميز في فضاء التضمين. وخلافًا للطرق الأخرى لنقل التسميات، فإن طريقتنا تُوزع المعلومات الزمنية بطريقة شاملة، وتُراعي مظهر الكائن على مدى طويل. بالإضافة إلى ذلك، تتطلب طريقتنا تكاليف حسابية إضافية قليلة، وتعمل بسرعة عالية تصل إلى حوالي 37 إطارًا في الثانية. وتحقق نموذجنا الواحد، باستخدام هيكل أساسي من نوع ResNet50 عادي، مجموع نقاط إجمالي قدره 72.3 على مجموعة التحقق من DAVIS 2017، و63.1 على مجموعة الاختبار. تُعد هذه الطريقة البسيطة ذات الأداء العالي والكفاءة العالية قاعدة أساسية قوية تُسهم في تسهيل الأبحاث المستقبلية. يُمكن الاطلاع على الكود والنموذج عبر الرابط: \url{https://github.com/microsoft/transductive-vos.pytorch}.