ذاكرة واعية بالمشتتات لتعقب الأشياء البصرية باستخدام SAM2

المتابِّعات القائمة على الذاكرة هي طرق لتقسيم الأشياء في الفيديو تشكل نموذج الهدف من خلال ربط الإطارات التي تم تتبعها مؤخرًا في مخزن ذاكرة، وتقوم بتتبع الهدف عن طريق التركيز على الصورة الحالية بالنسبة للإطارات المخزنة. رغم تحقيقها أداءً متميزًا في العديد من المقاييس، فإن الإصدار الأخير لـ SAM2 قد جعل المتابِّعات القائمة على الذاكرة محور اهتمام مجتمع تتبع الأشياء البصرية. ومع ذلك، لا تزال المتابِّعات الحديثة تعاني في وجود العناصر المشتتة. نعتقد أن نموذج ذاكرة أكثر تعقيدًا مطلوب، ونقترح نموذج ذاكرة جديدًا يدرك العناصر المشتتة لـ SAM2 واستراتيجية تحديث قائمة على التأمل الذاتي تعمل معًا على معالجة دقة التقسيم ومتانة التتبع. يُشار إلى المتابِّع الناتج باسم SAM2.1++. كما نقترح مجموعة بيانات جديدة DiDi (Distractor-Distilled) لدراسة مشكلة العناصر المشتتة بشكل أفضل. يتفوق SAM2.1++ على SAM2.1 والتوسعات ذات الصلة لذاكرة SAM في سبعة مقاييس ويحدد حالة متقدمة جديدة ومتماسكة في ستة منها.