SwinTrack: قاعدة بسيطة وقوية للتتبع باستخدام المحولات

في الآونة الأخيرة، تم استكشاف مُحَوِّل (Transformer) على نطاق واسع في مجال التتبع، حيث أظهر أداءً متميزًا (SOTA). ومع ذلك، تتركز الجهود الحالية بشكل رئيسي على دمج وتحسين الميزات الناتجة عن الشبكات العصبية التلافيفية (CNNs). ما زال هناك مجال واسع لاستكشاف الإمكانات الكامنة لمُحَوِّل في تعلم التمثيل (representation learning). في هذه الورقة، نهدف إلى توظيف القوة الكاملة لمُحَوِّل من خلال اقتراح مُتتبع بسيط وفعال بالكامل يستند إلى الانتباه (fully-attentional)، يُسمى SwinTrack، ضمن الإطار الكلاسيكي للشبكة المتشابهة (Siamese). وبشكل خاص، يعتمد SwinTrack على بنية مُحَوِّل في كل من تعلم التمثيل ودمج الميزات، مما يتيح تفاعلات أفضل بين الميزات مقارنةً بالأنظمة القائمة على CNN فقط أو الهجينة بين CNN وTransformer. علاوةً على ذلك، لتعزيز الموثوقية بشكل أكبر، نقدّم نوعًا جديدًا من "الرموز الحركية" (motion token) يُدمج فيه مسار الهدف التاريخي لتحسين التتبع من خلال توفير سياق زمني. ويتميز هذا الرمز الحركي بأنه خفيف جدًا من حيث الحسابات ولا يُضيف عبئًا معنويًا، لكنه يُحقق مكاسب واضحة. في تجاربنا الشاملة، تفوق SwinTrack على الطرق الحالية على عدة معايير معيارية. وبشكل خاص، حقق رقماً قياسيًا جديداً على المعيار الصعب LaSOT بحصوله على درجة SUC قدرها 0.713. كما حقق أداءً متميزًا على معايير أخرى. نتوقع أن يُعدّ SwinTrack قاعدة صلبة للبحث في مجال التتبع القائم على مُحَوِّل، ويساهم في دفع عجلة الأبحاث المستقبلية. تم إصدار الشفرات والنتائج على الرابط: https://github.com/LitingLin/SwinTrack.