شبكة ترانسفورمر موحدة ذات مرحلة واحدة لتعقب RGB-T بكفاءة

معظم شبكات التتبع الحالية لـ RGB-T تستخرج الخصائص النمطية بشكل منفصل، مما يفتقر إلى التفاعل والتوجيه المتبادل بين النماذج. هذا يحد من قدرة الشبكة على التكيف مع المظاهر الثنائية المتعددة للأهداف والعلاقات الديناميكية بين النماذج. بالإضافة إلى ذلك، فإن نموذج تتبع الاندماج الثلاثي المراحل الذي تتبعه هذه الشبكات يقيّد بشكل كبير سرعة التتبع. لتجاوز هذه المشكلات، نقترح شبكة تتبع موحدة في مرحلة واحدة تعتمد على محول RGB-T (Transformer)، والتي تُسمى USTrack، حيث تُوحِّد هذه الشبكة الثلاث مراحل أعلاه في هيكل خلفي واحد لـ ViT (Vision Transformer) مع طبقة انغماس ثنائية (Dual Embedding Layer) من خلال آلية الانتباه الذاتي (Self-Attention Mechanism). بفضل هذا الهيكل، يمكن للشبكة استخراج الخصائص المندمجة للقالب والمنطقة البحثية تحت تأثير التفاعل المتبادل بين النماذج. وفي الوقت نفسه، يتم إجراء نمذجة العلاقات بين هذه الخصائص، مما يتيح الحصول بكفاءة على خصائص المنطقة البحثية المندمجة ذات تمييز أفضل بين الهدف والخلفية للتنبؤ. علاوةً على ذلك، قدمنا آلية اختيار خصائص جديدة تعتمد على موثوقية النموذج لتخفيف تأثير النماذج غير الصالحة للتنبؤ، مما يحسن الأداء التتابعي بشكل أكبر. أظهرت التجارب الواسعة التي أجريت على ثلاثة مقاييس شائعة للتتبع RGB-T أن طريقتنا تحقق أداءً جديدًا رائدًا بينما تحافظ على أعلى سرعة استدلال عند 84.2 إطارًا في الثانية (FPS). وبشكل خاص، ارتفع MPR/MSR في مجموعة VTUAV القصيرة والمتوسطة الأجل بمقدار 11.1٪/11.7٪ و11.3٪/9.7٪.