التوافق المحلي لجميع الأزواج لمتابعة النقاط

نقدّم نموذج LocoTrack، وهو نموذج دقيق للغاية وفعال، مصمم لمهام تتبع أي نقطة (TAP) عبر تسلسلات الفيديو. غالبًا ما تعتمد الطرق السابقة في هذه المهمة على خرائط الترابط المحلي ثنائي الأبعاد لتكوين تطابقات من نقطة في الصورة الاستعلامية إلى منطقة محلية في الصورة الهدف، وهي طريقة تواجه صعوبات كبيرة في المناطق الموحّدة أو الميزات المتكررة، مما يؤدي إلى تناقضات في التماثل. يتجاوز LocoTrack هذه التحديات من خلال نهج جديد يستخدم التطابقات بين جميع الأزواج عبر المناطق، أي الترابط المحلي رباعي الأبعاد، لتكوين تطابقات دقيقة، مع تحسين كبير في الموثوقية ضد التناقضات بفضل التماثل ثنائي الاتجاه وسلسية التماثل. كما نُدمج في النموذج مشفر ترابط خفيف الوزن لتعزيز الكفاءة الحسابية، وبنية Transformer مدمجة لدمج المعلومات الزمنية الطويلة الأمد. ويحقق LocoTrack دقة غير مسبوقة على جميع معايير TAP-Vid، ويعمل بسرعة تقارب الستة أضعاف سرعة أحدث النماذج المتطورة حالياً.