HyperAIHyperAI
منذ 2 أشهر

تتبع RGBT باستخدام رموز متعددة الوسائط المكانية-الزمنية

Dengdi Sun; Yajie Pan; Andong Lu; Chenglong Li; Bin Luo
تتبع RGBT باستخدام رموز متعددة الوسائط المكانية-الزمنية
الملخص

تركز العديد من أبحاث تتبع RGBT بشكل أساسي على تصميم دمج الأوضاع، مع إغفال التعامل الفعال مع تغيرات مظهر الهدف. بينما قد قدمت بعض الأساليب إطارات تاريخية أو دمج واستبدال القوالب الأولية لدمج المعلومات الزمنية، فإنها تحمل خطر تعكير صفو مظهر الهدف الأصلي وتراكم الأخطاء بمرور الوقت. لتفادي هذه القيود، نقترح نهجًا جديدًا لتتبع RGBT يستخدم تقنية الترانسفورمر (Transformer)، حيث يتم خلط الرموز متعددة الأوضاع المكانية والزمانية من القوالب متعددة الأوضاع الثابتة ومناطق البحث متعددة الأوضاع في الترانسفورمر للتعامل مع تغيرات مظهر الهدف، مما يوفر تتبعًا ثابتًا لـ RGBT. نقدم رموز قوالب ديناميكية مستقلة للتفاعل مع منطقة البحث، حيث يتم غرس المعلومات الزمنية لمعالجة تغيرات المظهر، مع الحفاظ أيضًا على مشاركة الرموز الثابتة للقالب الأولي في عملية استخراج الميزات المشتركة لضمان حفظ المعلومات الموثوقة لمظهر الهدف التي تمنع الانحراف عن مظهر الهدف الناجم عن التحديثات الزمنية التقليدية. كما نستخدم آليات الانتباه (attention) لتعزيز ميزات الهدف للرموز القوالب متعددة الأوضاع من خلال دمج مؤشرات وضع إضافية، ونجعل الرموز متعددة الأوضاع لمنطقة البحث تتفاعل مع الرموز الديناميكية القوالب متعددة الأوضاع عبر آليات الانتباه، مما يسهل نقل المعلومات المتغيرة لمظهر الهدف المعزز بمتعدد الأوضاع. يتم إدخال وحدتنا في شبكة الخلفية للترانسفورمر وتوارث استخراج الميزات المشترك والتطابق بين منطقة البحث والقالب والتفاعل بين الأوضاع المختلفة. أثبتت التجارب الواسعة على ثلاثة مجموعات بيانات مرجعية لتتبع RGBT أن النهج المقترح يحافظ على أداء تنافسي بالمقارنة مع خوارزميات التتبع الأكثر تقدمًا الأخرى بينما يعمل بمعدل 39.1 إطار في الثانية (FPS).

تتبع RGBT باستخدام رموز متعددة الوسائط المكانية-الزمنية | أحدث الأوراق البحثية | HyperAI