الانتشار الكائني عبر الانتباهات بين الإطارات لتقسيم المثيلات الفيديوية المستقرة زمنيًا

يهدف التجزئة الفيديو للInstances إلى اكتشاف الكائنات وتقسيمها وتتبعها في الفيديو. تعتمد الطرق الحالية على توسيع خوارزميات التجزئة على مستوى الصورة إلى المجال الزمني. ومع ذلك، يؤدي ذلك إلى تجزئات غير مستقرة زمنيًا. في هذا العمل، نحدد جودة التجزئة الناتجة عن عدم الاستقرار الزمني كعائق رئيسي في الأداء. مستمدين من هذا التحفيز، نقترح طريقة لتجزئة الفيديو للInstances تخفف من مشكلة التفويت في الكشف. وبما أن هذه المشكلة لا يمكن حلها ببساطة باستخدام المعلومات المكانية، نستفيد من السياق الزمني من خلال استخدام الانتباه بين الإطارات (inter-frame attentions). يمكّن هذا الشبكة من إعادة التركيز على الكائنات المفقودة باستخدام تنبؤات المربعات (box predictions) من الإطار المجاور، وبالتالي التغلب على حالات التفويت في الكشف. تتفوق طريقة لدينا بشكل كبير على الخوارزميات السابقة من الدرجة المتقدمة باستخدام هيكل Mask R-CNN، حيث تحقق 36.0% من mAP على معيار YouTube-VIS. بالإضافة إلى ذلك، تتميز طريقة لدينا بالكامل بكونها تعمل في الوقت الفعلي (online) ولا تتطلب أي إطارات مستقبلية. يمكن الوصول إلى الكود الخاص بنا بشكل عام عبر الرابط: https://github.com/anirudh-chakravarthy/ObjProp.