شبكة مطابقة الذاكرة الهرمية للتحليل الكائنات في الفيديو

نقدّم شبكة التوافق الذاكرة الهرمية (HMMN) للفصل الكائنات في الفيديو شبه المُراقب. بالاعتماد على طريقة قائمة على الذاكرة حديثة [33]، نقترح وحدتين متطوّرتين لقراءة الذاكرة، اللتان تُمكّنانّا من إجراء قراءة الذاكرة على مقاييس متعددة مع استغلال السلسّة الزمنية. نحن نقدّم أولًا وحدة تطابق الذاكرة المُوجهة بالـkernel، التي تُستبدل بها عملية قراءة الذاكرة الكثيفة غير المحلية التي تُستخدم غالبًا في الطرق السابقة القائمة على الذاكرة. وتفرض هذه الوحدة قيد السلسّة الزمنية أثناء قراءة الذاكرة، مما يؤدي إلى استرجاع دقيق للذاكرة. والأهم من ذلك، نقدّم مخططًا هرميًا لتوصيل الذاكرة، ونُقدّم وحدة تطابق الذاكرة المُوجهة بـtop-k، حيث تُوجّه قراءة الذاكرة على المقياس الدقيق بواسطة قراءة الذاكرة على المقياس الخشن. وباستخدام هذه الوحدة، نُنفّذ قراءة الذاكرة على مقاييس متعددة بكفاءة، ونستفيد من ميزات الذاكرة عالية المستوى الدلالية ومن ميزات الذاكرة منخفضة المستوى التفصيلية لتنبؤ بأقنعة الكائنات التفصيلية. تحقق شبكتنا أفضل أداء في الحالة الحالية على مجموعات التحقق من DAVIS 2016/2017 (90.8% و84.7%) وYouTube-VOS 2018/2019 (82.6% و82.5%)، وكذلك على مجموعة الاختبار-التطوير من DAVIS 2017 (78.6%). يُمكن الوصول إلى الشفرة المصدرية والنموذج عبر الإنترنت: https://github.com/Hongje/HMMN.