تعلم تقسيم كائنات الفيديو باستخدام الذاكرة البصرية

يتناول هذا البحث مهمة تقسيم الأشياء المتحركة في مقاطع الفيديو غير المقيدة. نقدم شبكة عصبية ثنائية التيار مجهزة بوحدة ذاكرة صريحة لتحقيق هذا الهدف. يشفر التياران في الشبكة الخصائص المكانية والزمانية في سلسلة الفيديو على التوالي، بينما تلتقط وحدة الذاكرة تطور الأشياء عبر الزمن. يتم تحقيق الوحدة التي تبني "الذاكرة البصرية" في الفيديو، أي تمثيل مشترك لجميع إطارات الفيديو، باستخدام وحدة متكررة ارتباطية تعلم من عدد قليل من سلاسل الفيديو التدريبية. بناءً على إطار الفيديو كمدخل، يقوم نهجنا بتعيين تصنيف لكل بكسل كجزء من كائن أو خلفية، استنادًا إلى الخصائص المكانية-الزمانية المُتعلمة وكذلك "الذاكرة البصرية" الخاصة بالفيديو والمكتسبة تلقائيًا دون الحاجة إلى أي إطارات مُشَرَّحَة يدويًا. يتم تنفيذ الذاكرة البصرية باستخدام وحدات ارتباطية مغلقة بالبوابات ارتباطيًا (Convolutional Gated Recurrent Units)، مما يسمح بنشر المعلومات المكانية عبر الزمن. قمنا بتقييم طريقتنا بشكل شامل على معيارين رئيسيين، وهما مجموعة بيانات تقسيم الحركة DAVIS ومجموعة بيانات Freiburg-Berkeley لتقسيم الحركة، وأظهرنا نتائجًا رائدة في المجال. على سبيل المثال، يتفوق نهجنا على أفضل طريقة في مجموعة بيانات DAVIS بنسبة تقارب 6%. كما قمنا بتقديم تحليل تقليصي مفصل للتحقيق في تأثير كل عنصر في الإطار المقترح.