Command Palette
Search for a command to run...
ذاكرة واعية بالمضلّل للتتبع البصري للأشياء باستخدام SAM2
ذاكرة واعية بالمضلّل للتتبع البصري للأشياء باستخدام SAM2
Jovana Videnovic Alan Lukezic Matej Kristan
الملخص
تُعدّ المُتَّصِلات القائمة على الذاكرة أساليب لفصل الكائنات في الفيديو، حيث تُشكّل نموذج الهدف من خلال دمج الإطارات المُتَتبَّعة حديثًا في ذاكرة مؤقتة، ثم تُحدِّد موقع الهدف من خلال التركيز على الإطار الحالي بالنسبة للإطارات المُخزَّنة في الذاكرة. وعلى الرغم من تحقيقها أداءً متميزًا بالفعل على العديد من المعايير، إلا أن إطلاق SAM2 الأخير قد جعل المُتَّصِلات القائمة على الذاكرة محط اهتمام مجتمع تتبع الكائنات البصرية. ومع ذلك، ما زالت المُتَّصِلات الحديثة تعاني من صعوبات في ظل وجود عوامل تشتيت. ونُقدِّم رأينا بأن نموذج ذاكرة أكثر تطورًا مطلوب، ونُقدِّم نموذج ذاكرة جديدًا يُراعي العوامل المُشِتِّتة لـ SAM2، إلى جانب استراتيجية تحديث قائمة على التأمل، تُعالج بشكل مشترك دقة التجزئة ومتانة التتبع. ويُشار إلى المُتَّصِل الناتج باسم SAM2.1++. كما نُقدِّم أيضًا مجموعة بيانات جديدة تُسمى DiDi، مُصممة لاستخلاص العوامل المشتِّتة، بهدف دراسة مشكلة العوامل المُشِتِّتة بشكل أفضل. وقد أظهر SAM2.1++ تفوقه على SAM2.1 والتمديدات المرتبطة بذاكرة SAM، على سبعة معايير، وحقق أداءً جديدًا متميزًا على ستة منها.