استغلال الأنماط المكانية-الزمانية متعددة الوسائط لتعقب الأشياء في الفيديو

لقد حظي تتبع متعدد الوسائط باهتمام واسع نتيجة لقدرته على معالجة القيود المتأصلة في التتبع التقليدي باللون والسطوع (RGB). ومع ذلك، فإن معظم متعقبات متعددة الوسائط الحالية تركز بشكل أساسي على دمج وتقوية الخصائص المكانية أو الاستفادة فقط من العلاقات الزمنية النادرة بين الإطارات الفيديوية. هذه الأساليب لا تستغل بشكل كامل العلاقات الزمنية في مقاطع الفيديو متعددة الوسائط، مما يجعل من الصعب التقاط التغيرات الديناميكية ومعلومات الحركة للأهداف في السيناريوهات المعقدة. لحل هذه المشكلة، نقترح نهجًا موحدًا للتتبع المكاني-الزماني متعدد الوسائط يُسمى STTrack. بخلاف النماذج السابقة التي اعتمدت فقط على تحديث المعلومات المرجعية، قدمنا مولد الحالة الزمنية (TSG) الذي يولد باستمرار سلسلة من الرموز التي تحتوي على معلومات زمنية متعددة الوسائط. يتم استخدام هذه الرموز المعلوماتية الزمنية لتوجيه تحديد موقع الهدف في الحالة الزمنية التالية، وإقامة علاقات سياقية طويلة الأمد بين الإطارات الفيديوية، وتقفي أثر المسار الزمني للهدف. بالإضافة إلى ذلك، وعلى المستوى المكاني، قدمنا وحدات الدمج التفاعلي "مانبا" (Mamba Fusion) والقمع الخلفي (Background Suppression Interactive - BSI). تقوم هذه الوحدات بإنشاء آلية ثنائية المرحلة لتنسيق التفاعل والدمج بين الأوضاع المختلفة. توضح المقارنات الشاملة على خمسة مجموعات بيانات مرجعية أن STTrack يحقق أداءً رائدًا في مختلف سيناريوهات تتبع متعدد الوسائط. يمكن الوصول إلى الكود عبر الرابط: https://github.com/NJU-PCALab/STTrack.