الملخص

التعقب البصري للأشياء (VOT) الموجود حالياً يعتمد فقط على منطقة الهدف في الإطار الأول كقالب. هذا يؤدي إلى فشل حتمي في المشاهد السريعة التغير والمزدحمة، حيث لا يمكنه التعامل مع التغييرات في مظهر الكائن بين الإطارات. بهدف حل هذه المشكلة، أعدنا تصميم إطار العمل للتعقب باستخدام مُتابِع ترميز السياق المكاني والزماني التدريجي (ProContEXT)، الذي يستغل السياقات المكانية والزمانية بتناسق لتنبؤ مسارات حركة الكائن. تحديداً، يستخدم ProContEXT وحدة انتباه ذاتي واعية بالسياق لترميز السياق المكاني والزماني، مما يساعد في تحسين وتحديث القوالب الثابتة والديناميكية متعددة الأبعاد تدريجياً لأداء تعقب دقيق. كما أنه يستكشف التكامل بين السياق المكاني والسياق الزماني، مما يفتح طريقاً جديداً لنموذج متعدد السياقات للمتابعين المستندة إلى المتحولات (transformers). بالإضافة إلى ذلك، قام ProContEXT بمراجعة تقنية تقليم الرموز (token pruning) لتقليل التعقيد الحسابي. أثبتت التجارب الواسعة على مجموعات بيانات مرجعية شائعة مثل GOT-10k وTrackingNet أن ProContEXT المقترح يحقق أفضل الأداء الحالي.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار