انتقال موجه بالحركة لتقسيم كائنات الفيديو بدون تدريب مسبق

في هذه الورقة، نقدّم شبكة انتقال مُنتبهة للحركة (MATNet) جديدة لتقسيم كائنات الفيديو بدون تدريب مسبق (zero-shot video object segmentation)، والتي تقدّم طريقةً مبتكرة لاستغلال معلومات الحركة لتعزيز تمثيل الكائنات الفراغي-الزمني. تم تصميم كتلة انتباه غير متماثلة، تُسمى انتقال مُنتبه للحركة (MAT)، ضمن مُشفّر مزدوج التدفق، حيث تحوّل السمات المرئية إلى تمثيلات مُنتبهة للحركة في كل مرحلة تلافيفية. وبهذه الطريقة، يصبح المُشفّر متداخلًا بشكل عميق، مما يسمح بتفاعلات هرمية وثيقة بين حركة الكائن والسمات المرئية. ويُعد هذا الأسلوب أفضل من البنية المزدوجة التدفق التقليدية، التي تتعامل مع الحركة والمرئيات بشكل منفصل في كل تدفق، وغالبًا ما تعاني من التكيف الزائد مع المعلومات المرئية. علاوةً على ذلك، تم اقتراح شبكة جسرية (bridge network) للحصول على تمثيل مكثّف، تميّزي، وحساس للقياس لسمات المُشفّر متعددة المستويات، والتي تُقدّم بعدها إلى فكّ المُشفّر لتحقيق نتائج التقسيم. وقد أظهرت التجارب الواسعة على ثلاث معايير عامة صعبة (DAVIS-16، FBMS، وYoutube-Objects) أن نموذجنا يحقق أداءً متميزًا مقارنةً بأفضل النماذج الحالية.