مُعالجة الميزات المكانية ودمج الزمنية لتحقيق التجزئة الفعّالة للInstances في الفيديو من مرحلة واحدة

تُعاني الشبكات الحديثة ذات المرحلة الواحدة لتصنيف المُثَلَّثات الفيديوية من قيودتين رئيسيتين. أولاً، لا تكون السمات التلافيفية مُتوافقة مع صناديق الإسناد (anchor boxes) ولا مع صناديق الحقيقة الأساسية (ground-truth bounding boxes)، مما يقلل من حساسية القناع (mask) تجاه الموقع المكاني. ثانيًا، يتم تقسيم الفيديو مباشرة إلى إطارات فردية لتنفيذ التصنيف على مستوى الإطار، مما يتجاهل الارتباط الزمني بين الإطارات المجاورة. ولحل هاتين المشكلتين، نقترح إطارًا فعّالًا وبسيطًا لتصنيف المُثَلَّثات الفيديوية ذات المرحلة الواحدة من خلال التصحيح المكاني والدمج الزمني، يُسمى STMask. لضمان التصحيح المكاني للسمات مع صناديق الحقيقة الأساسية، نقوم أولاً بتوقع صناديق تُعدّل (regressed bounding boxes) حول صناديق الحقيقة الأساسية، ثم نستخرج السمات من هذه الصناديق لتنفيذ التصنيف على مستوى الإطار. ولاستكشاف الارتباط الزمني بين إطارات الفيديو بشكل أعمق، ندمج وحدة دمج زمنيّة (temporal fusion module) لاستخلاص قوالب الكائنات (instance masks) من كل إطار إلى الإطارات المجاورة، مما يُسهم في تمكين إطارنا من التعامل مع مقاطع فيديو صعبة مثل الضباب الحركي (motion blur)، والاختفاء الجزئي (partial occlusion)، والوضعيات غير العادية بين الكائنات والكاميرا. أظهرت التجارب على مجموعة التحقق من YouTube-VIS أن STMask المقترح باستخدام هيكل أساسي من نوع ResNet-50/-101 يحقق 33.5٪ / 36.8٪ من دقة قناع التصنيف (mask AP)، مع تحقيق معدل 28.6 / 23.4 إطارًا في الثانية (FPS) في تصنيف المُثَلَّثات الفيديوية. تم إصدار الكود عبر الإنترنت على الرابط: https://github.com/MinghanLi/STMask.