تجاوز فجوة الوسائط في تتبع RGBT: التعلم بالتوجيه المترابط

الفجوة النمطية بين صور RGB والأشعة تحت الحمراء الحرارية (TIR) هي مشكلة حاسمة ولكنها غالباً ما تُغفل في طرق تتبع RGBT الحالية. يمكن ملاحظة أن الفجوة النمطية تكمن بشكل أساسي في اختلاف أسلوب الصورة. في هذا العمل، نقترح إطار جديد للتدريس المعرفي المتزامن يُسمى CKD، والذي يسعى إلى تحقيق أسلوب مشترك لأنماط مختلفة لكسر الفجوة النمطية، مما يؤدي إلى تتبع RGBT عالي الأداء. بصفة خاصة، نقدم شبكتين طالب ونستخدم خسارة التدريس الأسلوبي لجعل ميزات الأسلوب الخاصة بهما متسقة قدر الإمكان. من خلال تخفيف الاختلاف الأسلوبي بين شبكتي الطالب، يمكننا كسر الفجوة النمطية بين الأنماط المختلفة بشكل جيد. ومع ذلك، قد يضر تدريس ميزات الأسلوب بتمثيلات المحتوى لأنماطRGB و TIR في شبكات الطالب. للتعامل مع هذه المشكلة، نأخذ الشبكات الأصلية لـ RGB و TIR كمعلمين، ونقوم بتقديس معرفتهم بالمحتوى إلى شبكتي الطالب على التوالي من خلال نظام فصل الميزات الأسلوب-المحتوى العمودي. نربط هذين عملية التدريس في إطار تحسين عبر الإنترنت لتشكيل تمثيلات جديدة للميزات لـ RGB والأشعة تحت الحمراء الحرارية دون وجود فجوة نمطية. بالإضافة إلى ذلك، نصمم استراتيجية النموذج المقنع واستراتيجية القضاء على الرموز المرشحة متعددة الأنماط في CKD لتحسين صلابة التتبع وكفاءته على التوالي. أثبتت التجارب الواسعة على خمسة قواعد بيانات تتبع RGBT القياسية فعالية الطريقة المقترحة مقابل أفضل الطرق الموجودة حالياً بينما حققت سرعة تتبع أسرع تبلغ 96.4 إطاراً في الثانية (FPS). يمكن الوصول إلى الكود من الرابط: https://github.com/Multi-Modality-Tracking/CKD.请注意,这里有一些术语的翻译:- Modality gap: فجوة نمطية- Thermal infrared (TIR): الأشعة تحت الحمراء الحرارية- Coupled Knowledge Distillation framework: إطار التدريس المعرفي المتزامن- Style distillation loss: خسارة التدريس الأسلوبي- Feature representations: تمثيلات الميزات- Masked modeling strategy: استراتيجية النموذج المقنع- Multi-modal candidate token elimination strategy: استراتيجية القضاء على الرموز المرشحة متعددة الأنماط希望这些翻译能帮助您更好地理解文本内容。如果有任何疑问或需要进一步调整的地方,请随时告知。