التكثيف العالي الرتبة المتعامد عبر الوسائط لمسارح المحوّل RGB-Event

يدور هذا البحث حول مشكلة تتبع الأشياء عبر الوسائط المختلفة من مقاطع الفيديو الملونة (RGB) وبيانات الحدث (event data). بدلًا من بناء شبكة تكامل عبر الوسائط معقدة، نستكشف الإمكانات الكبيرة لنموذج محول الرؤية المُدرَّب مسبقًا (Vision Transformer - ViT). وبشكل خاص، نقوم بدراسة دقيقة لتقنيات تعزيز التدريب القابلة للتركيب (plug-and-play) التي تشجع نموذج ViT على تقليل الفجوة الكبيرة في التوزيع بين الوسائط المتناظرة، مما يمكّن من تفاعل شامل بين المعلومات عبر الوسائط ويُعزز قدرته على التتبع. وبالتحديد، نقترح استراتيجية نمذجة التغطية (mask modeling) التي تُغطي عشوائيًا نوعًا معينًا من الوسائط لبعض الرموز (tokens)، بهدف إجبار التفاعلات النشطة بين الرموز القادمة من وسائط مختلفة. ولتقليل اهتزازات الشبكة الناتجة عن استراتيجية التغطية، وتعزيز التأثير الإيجابي لها، نُقدِّم نظريًا خسارة عالية الرتبة متعامدة (orthogonal high-rank loss) لتنظيم مصفوفة الانتباه. تُظهر التجارب الواسعة أن تقنيات تعزيز التدريب القابلة للتركيب التي نقترحها يمكن أن تُحسِّن بشكل كبير أداء أحدث نماذج تتبع الأشياء من نوع "التيار الواحد" (one-stream) و"التيار المزدوج" (two-stream) من حيث دقة التتبع ومعدل النجاح. إن منظورنا الجديد ونتائجنا المُكتشفة قد تُقدِّم رؤى قيمة للحقل المتعلق باستخدام نماذج ViT القوية المُدرَّبة مسبقًا لتمثيل البيانات عبر الوسائط المختلفة. وسيتم الإفصاح عن الكود المصدر بشكل عام.