شبكة الذاكرة الإقليمية الفعالة لتمييز الأشياء في الفيديو

في الآونة الأخيرة، أظهرت عدة شبكات تعتمد على ذاكرة الزمان والمكان أن معلومات الأشياء (مثل الإطارات الفيديوية وأقنعة الأشياء المقطعة) من الإطارات السابقة مفيدة لتقسيم الأشياء في الإطار الحالي. ومع ذلك، فإن هذه الطرق تستغل المعلومات من الذاكرة من خلال التوافق بين الإطارات الحالية والسابقة على مستوى عالمي إلى عالمي، مما يؤدي إلى توافق غير صحيح مع الأشياء المشابهة وتعقيد حسابي مرتفع. لحل هذه المشكلات، نقترح حلًا جديدًا للتوافق المحلي إلى المحلي في التعلم شبه المشرف على تقسيم الأشياء المرئية (VOS)، وهو ما يُعرف بشبكة ذاكرة المنطقة (RMNet). في RMNet، يتم بناء ذاكرة منطقة دقيقة عن طريق تخزين المناطق المحلية حيث تظهر الأشياء المستهدفة في الإطارات السابقة. بالنسبة للإطار الاستفساري الحالي، يتم تتبع وتوقع المناطق الاستفسارية استنادًا إلى الجريان البصري المقدر من الإطار السابق. يخفف التوافق المحلي إلى المحلي المقترح بشكل فعال الغموض المرتبط بالأشياء المشابهة في كل من الذاكرة والإطارات الاستفسارية، مما يسمح بنقل المعلومات من ذاكرة المنطقة إلى المنطقة الاستفسارية بفعالية وكفاءة. تشير النتائج التجريبية إلى أن الشبكة المقترحة RMNet تؤدي بشكل أفضل مقارنة بأحدث الأساليب على مجموعات البيانات DAVIS و YouTube-VOS.