Command Palette
Search for a command to run...
SAM2Long: تحسين SAM 2 للتقسيم الطويل للفيديوهات باستخدام شجرة ذاكرة خالية من التدريب
SAM2Long: تحسين SAM 2 للتقسيم الطويل للفيديوهات باستخدام شجرة ذاكرة خالية من التدريب
Shuangrui Ding Rui Qian Xiaoyi Dong Pan Zhang Yuhang Zang Yuhang Cao Yuwei Guo Dahua Lin Jiaqi Wang
الملخص
نموذج سِegment Anything 2 (SAM 2) قد برز كنموذج أساسي قوي لتقسيم الكائنات في الصور والفيديوهات، مُمهِّدًا الطريق أمام تطبيقات فيديو متعددة في المراحل اللاحقة. وتشكل الوحدة الذاكرةية في SAM 2 جوهر التصميم المهم لتقسيم الفيديو، حيث تُولِّد ذاكرة واعية بالكائنات من الإطارات السابقة لاستخدامها في التنبؤ بالإطار الحالي. ومع ذلك، فإن تصميم الذاكرة القائم على الاختيار الجشع يعاني من مشكلة "تراكم الأخطاء"، حيث يمكن أن تنتشر الأخطاء أو التغيبات في التظليل (الـmask) عبر الإطارات اللاحقة، مما يؤثر سلبًا على تقسيم الكائنات في الإطارات التالية، ما يحد من أداء SAM 2 في الفيديوهات المعقدة الطويلة الأمد.ولحل هذه المشكلة، نقدّم SAM2Long، وهي استراتيجية مُحسَّنة لتقسيم كائنات الفيديو دون الحاجة إلى إعادة التدريب، تأخذ بعين الاعتبار عدم اليقين في التقسيم داخل كل إطار، وتعمل على اختيار النتائج المثلى على مستوى الفيديو من بين مسارات تقسيم متعددة، وذلك عبر منهجية بحث شجري مُقيَّد. في الممارسة العملية، نُحافظ على عدد ثابت من مسارات التقسيم طوال مدة الفيديو. وفي كل إطار، تُقترح عدة أقنعة بناءً على المسارات المتاحة، مما يُنشئ فروعًا مرشحة مختلفة. ثم نختار نفس العدد الثابت من الفروع ذات الدرجات التراكمية الأعلى لتصبح المسارات الجديدة للإطار التالي. وبعد معالجة الإطار الأخير، تُختار المسار ذو الدرجة التراكمية الأعلى كنتيجة نهائية للتقسيم.بفضل تصميمها القائم على بحث استباقي، تُظهر SAM2Long مرونة عالية أمام التغطية (الإغلاق) وعودة الكائنات بعد اختفائها، وقدرتها الفعّالة على تقسيم الكائنات وتتبعها في الفيديوهات المعقدة الطويلة الأمد. وبشكل ملحوظ، حققت SAM2Long تحسنًا متوسطًا قدره 3.0 نقطة في جميع مقارنات الوجه لوجه الـ24، مع تحقيق مكاسب تصل إلى 5.3 نقطة في معياري J&F على معايير تقسيم كائنات الفيديو الطويلة الأمد مثل SA-V وLVOS. تم إتاحة الكود المصدر على الرابط: https://github.com/Mark12Ding/SAM2Long.