محاذاة مساحة المدى الزمنية للتعرف على الكائنات في الفيديو

كشف الكائنات في الفيديو يُعدّ تحديًا كبيرًا في ظل تدهور المظهر في بعض إطارات الفيديو. لذا، يُعدّ تجميع المعلومات الزمنية من الإطارات الأخرى لنفس الفيديو إلى الإطار الحالي خيارًا طبيعيًا. ومع ذلك، يظل تقنية RoI Align، التي تُعدّ واحدة من العمليات الأساسية في كاشفات الفيديو، تُستخرج فيها الميزات من خريطة ميزات إطار واحد فقط للتقديمات (proposals)، مما يؤدي إلى نقص في المعلومات الزمنية المستخرجة من الفيديو في ميزات RoI. في هذه الدراسة، بالنظر إلى أن ميزات نفس مثيل الكائن تكون متشابهة للغاية بين الإطارات في الفيديو، تم اقتراح عملية جديدة تُسمى Temporal RoI Align لاستخراج الميزات من خرائط ميزات الإطارات الأخرى لتقديمات الإطار الحالي من خلال الاستفادة من تشابه الميزات. تتيح عملية Temporal RoI Align استخراج المعلومات الزمنية من كامل الفيديو بالنسبة للتقديمات. وقد تم دمجها في كاشفات الفيديو ذات الإطار الواحد، وكذلك في كاشفات الفيديو المتطورة الأخرى، وأُجريت تجارب كمية لإثبات أن عملية Temporal RoI Align تُعزز أداء الكاشف بشكل متسق وملحوظ. علاوة على ذلك، يمكن تطبيق Temporal RoI Align أيضًا في مجال تجزئة الكائنات في الفيديو. تتوفر الشفرة المصدرية على الرابط: https://github.com/open-mmlab/mmtracking