SAMURAI: تكييف نموذج تجزئة أي شيء لتعقب بصرى بدون تصوير مسبق باستخدام ذاكرة واعية للحركة

أثبت نموذج تقسيم أي شيء 2 (SAM 2) أداءً قويًا في مهام تقسيم الأشياء، ولكنه يواجه تحديات في تتبع الأشياء البصرية، خاصة عند التعامل مع مشاهد مزدحمة تحتوي على أشياء تتحرك بسرعة أو تغطي نفسها. بالإضافة إلى ذلك، فإن نهج الذاكرة ذات النافذة الثابتة في النموذج الأصلي لا يأخذ بعين الاعتبار جودة الذكريات المختارة لتهيئة خصائص الصورة للإطار التالي، مما يؤدي إلى انتشار الأخطاء في الفيديوهات. يقدم هذا البحث نظام SAMURAI، وهو تكيف محسن من SAM 2 تم تصميمه خصيصًا لتتبع الأشياء البصرية. من خلال دمج مؤشرات الحركة الزمنية مع آلية اختيار الذاكرة الواعية بالحركة المقترحة، يتمكن نظام SAMURAI من التنبؤ بدقة بحركة الأشياء وتحسين اختيار القناع، مما يحقق تتبعًا قويًا ودقيقًا دون الحاجة لإعادة التدريب أو التعديل الدقيق. يعمل نظام SAMURAI في الوقت الحقيقي ويظهر أداءً قويًا بدون تعديل دقيق عبر مجموعة متنوعة من مجموعات البيانات المرجعية، مما يبرز قدرته على التعميم دون الحاجة للتعديل الدقيق. وفي التقييمات، حقق نظام SAMURAI تحسينات كبيرة في معدل النجاح والدقة مقارنة بالأنظمة المتتبعه الموجودة حاليًا، حيث سجل زيادة بنسبة 7.1% في مؤشر AUC على LaSOT_{ext} وزيادة بنسبة 3.5% في مؤشر AO على GOT-10k. علاوة على ذلك، فإنه يحقق نتائج تنافسية مقارنة بالطرق المشرف عليها تمامًا على LaSOT، مما يؤكد صلابته في السيناريوهات المعقدة للتتبع وإمكاناته للتطبيقات العملية في البيئات الديناميكية. يمكن الوصول إلى الكود والنتائج عبر الرابط:https://github.com/yangchris11/samurai.