ODTrack: التعلم الكثيف للرموز الزمنية عبر الإنترنت لمتابعة الصور البصرية

الاستدلال السياقي عبر الإنترنت والربط بين الإطارات الفيديوية المتتالية أمر حاسم لفهم الحالات في تتبع الصور المرئية. ومع ذلك، فإن معظم المتعقبين الرائدين حاليًا يعتمدون بشكل مستمر على العلاقات الزمنية النادرة بين الإطارات المرجعية وإطارات البحث من خلال وضع غير متصل بالإنترنت. نتيجة لذلك، يمكنهم التفاعل بشكل مستقل فقط داخل كل زوج صور وإقامة علاقات زمنية محدودة. لحل هذه المشكلة، نقترح أنبوب تتبع على مستوى الفيديو بسيط ومرن وفعال، يُسمى \textbf{ODTrack}، والذي يربط العلاقات السياقية للإطارات الفيديوية بكثافة بطريقة انتشار الرموز عبر الإنترنت. يتلقى ODTrack إطارات فيديو ذات طول تعسفي لتقاطع العلاقات المساحة-زمن للحالة، ويضغط خصائص التمييز (معلومات التوضع) للهدف إلى سلسلة رموز لتحقيق الربط بين الإطارات. تجلب هذه الحل الجديد الفوائد التالية: 1) يمكن أن تخدم السلسلات الرمزية النقية كحافزات لل揄سبا في الإطار الفيديوي التالي، مما يستفيد من المعلومات السابقة لإرشاد الاستدلال المستقبلي؛ 2) يتم تجنب استراتيجيات التحديث عبر الإنترنت المعقدة بفعالية من خلال انتشار سلاسل الرموز بشكل تكراري، وبالتالي يمكننا تحقيق تمثيل نموذج أكثر كفاءة وحساب أسرع. حقق ODTrack أداءً جديدًا \textit{SOTA} على سبعة مقاييس قياسية بينما يعمل بسرعة الوقت الحقيقي. يمكن الحصول على الكود والنماذج من \url{https://github.com/GXNU-ZhongLab/ODTrack}.