HyperAIHyperAI
منذ 11 أيام

MATNet: شبكة انتقالية مُوجَّهة بالحركة لتقسيم كائنات الفيديو بدون تدريب مسبق

{Ran; Shen, Shunzhou; Tao, Jianwu; Wang, Tianfei; Li, Zhou, Jianbing}
الملخص

في هذه الورقة، نقدم شبكة عصبية لتعلم من النهاية إلى النهاية جديدة، تُعرف باسم MATNet، لتقسيم كائنات الفيديو بدون تدريب مسبق (ZVOS). مستلهمين من سلوك الانتباه البصري البشري، تستخدم MATNet إشارات الحركة كإشارة تنازلية (bottom-up) لتوجيه إدراك مظهر الكائنات. لتحقيق ذلك، نقترح كتلة انتباه غير متماثلة تُسمى "الانتقال المُنتبه للحركة" (Motion-Attentive Transition - MAT)، ضمن شبكة مشفرة ثنائية التدفق، لتُحدد أولًا المناطق المتحركة، ثم تُوجه عملية تعلم المظهر بهدف اكتشاف الكائنات بالكامل. من خلال تضمين كتل MAT في طبقات تلافيفية مختلفة، تصبح الشبكة المشفرة متداخلة بعمق، مما يسمح بتداخل هرمي وثيق بين مظهر الكائن وحركته. وقد أثبت هذا التصميم المستوحى من الطبيعة أنه متفوق بشكل كبير على الهياكل الثنائية التقليدية، التي تتعامل مع الحركة والمظهر بشكل منفصل في تدفقات منفصلة، وغالبًا ما تعاني من تطابق مفرط (overfitting) مع مظهر الكائن. علاوةً على ذلك، نُقدِّم شبكة جسرية (bridge network) لتعديل السمات الفضائية الزمنية متعددة المقاييس إلى تمثيلات أكثر كثافة، وتمييزًا، وحساسية للقياس، والتي تُوجَّه لاحقًا إلى شبكة فك ترميز تعتمد على الحدود لتقديم تقسيم دقيق مع حدود واضحة. أجرينا تجارب كمية ونوعية واسعة النطاق على أربع معايير عامة صعبة، وهي DAVIS16 وDAVIS17 وFBMS وYouTube-Objects. أظهرت النتائج أن طريقةنا تحقق أداءً متميزًا مقارنةً بأفضل الطرق الحالية في مجال ZVOS. ولإثبات قدرة الإطار التعلمي الفضائي الزمني على التعميم بشكل أكبر، قمنا بتوسيع MATNet لتطبيق آخر مرتبط به: توقع الانتباه البصري الديناميكي (DVAP). وتوّفر التجارب على مجموعتي بيانات شهيرتين (Hollywood-2 وUCF-Sports) مزيدًا من الدلائل على التفوق الذي تتمتع به نماذجنا.