SDSTrack: التعلم المتكافئ للتقطير الذاتي في تتبع الأشياء المرئية متعددة الوسائط

التعقب البصري متعدد الوسائط (VOT) حظي مؤخرًا باهتمام كبير بسبب متانته. ركزت البحوث المبكرة على تعديل مُتابِعات القائمة على الصور الملونة (RGB) بشكل كامل، وهو ما كان غير فعال ويفتقر إلى التمثيل العام بسبب ندرة البيانات متعددة الوسائط. لذلك، استخدمت الدراسات الحديثة تقنية تعديل الدفعات لنقل المُتابِعات القائمة على الصور الملونة التي تم تدريبها مسبقًا إلى بيانات متعددة الوسائط. ومع ذلك، فإن الفجوة بين الوسائط تحد من استدعاء المعرفة السابقة، وتظل هيمنة وسيلة الصور الملونة مستمرة، مما يمنع الاستفادة الكاملة من المعلومات القادمة من الوسائط الأخرى. لمعالجة هذه المشكلات، نقترح إطار عمل جديد للتعقب متعدد الوسائط بطريقة متناظرة يُسمى SDSTrack. نقدم تكييفًا خفيف الوزن لتعديل فعال، يقوم بنقل قدرة استخراج الخصائص مباشرة من الصور الملونة إلى مجالات أخرى باستخدام عدد قليل من المعاملات القابلة للتدريب ويتكامل بين خصائص الوسائط المتعددة بطريقة متوازنة ومتناظرة. بالإضافة إلى ذلك، صممنا استراتيجية تقطير الأجزاء المصمتة التكميلية لتعزيز متانة المُتابِعات في بيئات معقدة مثل الطقس الشديد، جودة التصوير السيئة وفشل المستشعرات. أظهرت التجارب الشاملة أن SDSTrack يتفوق على الأساليب الرائدة في مختلف سيناريوهات التعقب متعدد الوسائط، بما في ذلك التعقب بالصور الملونة + العمق (RGB+Depth)، والصور الملونة + الحرارية (RGB+Thermal)، والصور الملونة + الأحداث (RGB+Event)، ويحقق نتائج مثيرة للإعجاب في الظروف القاسية. يمكن الحصول على كود المصدر الخاص بنا من https://github.com/hoqolo/SDSTrack.