HyperAIHyperAI
منذ 2 أشهر

الدمج متعدد الأوضاع للتعقب من النهاية إلى النهاية باستخدام RGB-T

Lichao Zhang; Martin Danelljan; Abel Gonzalez-Garcia; Joost van de Weijer; Fahad Shahbaz Khan
الدمج متعدد الأوضاع للتعقب من النهاية إلى النهاية باستخدام RGB-T
الملخص

نقترح إطارًا شاملًا للتعقب يدمج بين الوسطين RGB و TIR في تعقب RGB-T. تتكون أداة التعقب الأساسية لدينا من DiMP (تنبؤ النموذج التمييزي)، والتي تستخدم شبكة تنبؤ دقيقة مصممة بعناية تم تدريبها بشكل شامل باستخدام خسارة تمييزية. نقوم بتحليل فعالية دمج الوسائل في كل من المكونات الرئيسية لـ DiMP، وهي مستخرج الميزات، شبكة تقدير الهدف، وال تصنيف. نأخذ بعين الاعتبار عدة آليات دمج تعمل على مستويات مختلفة من الإطار، بما في ذلك مستوى البكسل، مستوى الميزات، ومستوى الاستجابة. يتم تدريب أداة التعقب لدينا بشكل شامل، مما يمكّن المكونات من تعلم كيفية دمج المعلومات من كلا الوسيلتين. كبيانات لتدريب نموذجنا، نولد مجموعة بيانات RGB-T كبيرة الحجم عن طريق النظر إلى مجموعة بيانات تعقب RGB مشمولة بالتعليقات (GOT-10k) وإنشاء صور TIR متزامنة باستخدام نهج تحويل الصورة إلى الصورة. نجري تجارب موسعة على مجموعة بيانات VOT-RGBT2019 ومجموعة بيانات RGBT210، حيث نقيم كل نوع من أنواع دمج الوسائل على كل مكون من مكونات النموذج. تظهر النتائج أن الآليات المقترحة للدمج تحسن أداء الأدوات المنفردة لكل وسيط. نحصل على أفضل النتائج عند الدمج على مستوى الميزات لكل من IoU-Net والتنبؤ بالنماذج، مما يحقق درجة EAO قدرها 0.391 على مجموعة بيانات VOT-RGBT2019. باستخدام هذه الآلية للدمج، نحقق أفضل الأداء الحالي على مجموعة بيانات RGBT210.

الدمج متعدد الأوضاع للتعقب من النهاية إلى النهاية باستخدام RGB-T | أحدث الأوراق البحثية | HyperAI