SAM2Long: تعزيز SAM 2 لتقسيم الفيديوهات الطويلة باستخدام شجرة الذاكرة الخالية من التدريب

ظهر نموذج Segment Anything Model 2 (SAM 2) كنموذج أساسي قوي لتقسيم الأشياء في الصور والفيديوهات، مما فتح الباب أمام تطبيقات الفيديو المختلفة. التصميم الحاسم لـ SAM 2 في تقسيم الفيديو هو وحدة الذاكرة الخاصة به، والتي تستدعي ذكريات متعلقة بالأشياء من الإطارات السابقة للتنبؤ بالإطار الحالي. ومع ذلك، يعاني تصميم الذاكرة ذو الاختيار الجشّاع من مشكلة "تراكم الأخطاء"، حيث يمكن أن يؤدي القناع الخاطئ أو المفقود إلى تراكم الأخطاء وتأثيرها على تقسيم الإطارات اللاحقة، مما يحد من أداء SAM 2 نحو مقاطع الفيديو المعقدة طويلة الأمد.لذلك، نقدم SAM2Long، وهو استراتيجية محسنة لتقسيم الأشياء في الفيديو دون الحاجة إلى التدريب، والتي تأخذ بعين الاعتبار عدم اليقين في التقسيم داخل كل إطار واختيار النتائج المثلى على مستوى الفيديو من طرق التقسيم المتعددة بطريقة البحث الشجري المقيد. في الممارسة العملية، نحافظ على عدد ثابت من طرق التقسيم عبر جميع مقاطع الفيديو. لكل إطار، يتم اقتراح عدة أقنعة بناءً على الطرق الموجودة، مما يخلق فروعًا مرشحة مختلفة. ثم نختار نفس العدد الثابت من الفروع ذات النقاط التراكمية الأعلى كطرق جديدة للإطار التالي. بعد معالجة الإطار النهائي، يتم اختيار الطريق الذي يحتوي على أعلى نقطة تراكمية كنتيجة النهائية للتقسيم.بفضل تصميمه للبحث الاسترشادي، فإن SAM2Long متين تجاه حالات الاخفاء وإعادة ظهور الأشياء ويمكنه تقسيم وتتبع الأشياء بكفاءة لمقطع الفيديو المعقد طويل الأمد. بشكل ملحوظ، حقق SAM2Long تحسينًا متوسطًا بمقدار 3.0 نقاط في جميع المقارنات المباشرة البالغ عددها 24 مقارنة، مع زيادة تصل إلى 5.3 نقاط في J&F على مقاييس تقسيم الأشياء في الفيديو طويل الأمد مثل SA-V وLVOS. تم إطلاق الكود في https://github.com/Mark12Ding/SAM2Long.