التوافق في الذاكرة ليس كافيًا: تحسين مشترك بين التوافق في الذاكرة والفك لتقسيم كائنات الفيديو

تُعدّ أساليب التجزئة المبنية على الذاكرة للكائنات في الفيديو فعّالة في نمذجة عدة كائنات على مدى زمني وفضائي طويل من خلال إنشاء "مصرف ذاكرة"، حيث تحقق أداءً متميزًا. ومع ذلك، تواجه صعوبة في التغلب على التوافقات الخاطئة، وهي عرضة لفقدان المعلومات الحيوية، مما يؤدي إلى التباس بين الكائنات المختلفة. في هذه الورقة، نقترح منهجية فعّالة تقوم بتحسين مراحل التوافيق والفك الترميز معًا لتخفيف مشكلة التوافقات الخاطئة. بالنسبة لمرحلة توافق الذاكرة، نقدّم آلية واعية بالتكلفة تُقلّل من تأثير الأخطاء الطفيفة في الذاكرة قصيرة المدى، بالإضافة إلى آلية توافق عرضية عبر المقياس في الذاكرة طويلة المدى، والتي تُنشئ فضاءات توافق واسعة لتغطية مقاييس مختلفة للكائنات. أما في مرحلة فك الترميز للقراءة، نطبّق آلية تعويضية تهدف إلى استعادة المعلومات الأساسية التي قد تُفقد في مرحلة التوافق. تُظهر منهجيتنا أداءً متميزًا في عدة معايير شائعة (مثل DAVIS 2016 و2017 Val (92.4% و88.1%)، وDAVIS 2017 Test (83.9%)، وتصل إلى 84.8% و84.6% على YouTubeVOS 2018 و2019 Val.