ProContEXT: استكشاف محول السياق التدريجي للتعقب

التعقب البصري للأشياء (VOT) الموجود حالياً يعتمد فقط على منطقة الهدف في الإطار الأول كقالب. هذا يؤدي إلى فشل حتمي في المشاهد السريعة التغير والمزدحمة، حيث لا يمكنه التعامل مع التغييرات في مظهر الكائن بين الإطارات. بهدف حل هذه المشكلة، أعدنا تصميم إطار العمل للتعقب باستخدام مُتابِع ترميز السياق المكاني والزماني التدريجي (ProContEXT)، الذي يستغل السياقات المكانية والزمانية بتناسق لتنبؤ مسارات حركة الكائن. تحديداً، يستخدم ProContEXT وحدة انتباه ذاتي واعية بالسياق لترميز السياق المكاني والزماني، مما يساعد في تحسين وتحديث القوالب الثابتة والديناميكية متعددة الأبعاد تدريجياً لأداء تعقب دقيق. كما أنه يستكشف التكامل بين السياق المكاني والسياق الزماني، مما يفتح طريقاً جديداً لنموذج متعدد السياقات للمتابعين المستندة إلى المتحولات (transformers). بالإضافة إلى ذلك، قام ProContEXT بمراجعة تقنية تقليم الرموز (token pruning) لتقليل التعقيد الحسابي. أثبتت التجارب الواسعة على مجموعات بيانات مرجعية شائعة مثل GOT-10k وTrackingNet أن ProContEXT المقترح يحقق أفضل الأداء الحالي.