تراكب الترانسفورمر

تلعب الارتباطات دورًا حاسمًا في مجال التتبع، خاصة في المُتتبعات الشهيرة القائمة على نموذج ساياميز (Siamese). يُعد عملية الارتباط وسيلة بسيطة للدمج، تُستخدم لتقييم درجة التشابه بين القالب (template) ومنطقة البحث (search region). ومع ذلك، فإن عملية الارتباط ذاتها تُعد عملية تطابق خطية محلية، ما يؤدي إلى فقدان المعلومات الدلالية (semantic information) وسهولة الانزلاق إلى حلول محلية غير مثلى، وهو ما قد يشكل عقبة رئيسية في تصميم خوارزميات تتبع عالية الدقة. هل هناك طريقة أفضل لدمج الميزات من عملية الارتباط؟ لمعالجة هذه المشكلة، مستوحى من هيكل المُحول (Transformer)، يقدم هذا العمل شبكة جديدة لدمج الميزات تعتمد على الانتباه (attention-based feature fusion network)، والتي تُدمج بشكل فعّال ميزات القالب ومنطقة البحث باستخدام الانتباه وحده. وبشكل محدد، يتضمن المنهج المقترح وحدة تحسين السياق الذاتي (ego-context augment module) القائمة على الانتباه الذاتي (self-attention)، ووحدة تحسين ميزات متقاطعة (cross-feature augment module) تعتمد على الانتباه المتقاطع (cross-attention). وفي النهاية، نُقدّم منهجية تتبع مبنية على المُحول (تُسمى TransT)، ترتكز على هيكل استخراج ميزات شبيه بـ Siamese، وآلية دمج مبنية على الانتباه المصممة خصيصًا، بالإضافة إلى وحدة تصنيف وانحدار (classification and regression head). أظهرت التجارب نتائج واعدة جدًا لـ TransT على ستة مجموعات بيانات صعبة، وبشكل خاص على مجموعات بيانات كبيرة الحجم مثل LaSOT وTrackingNet وGOT-10k. يعمل المُتتبع المقترح بسرعة تقارب 50 إطارًا في الثانية (fps) على وحدة معالجة الرسومات (GPU). يمكن الوصول إلى الكود والنماذج عبر الرابط التالي: https://github.com/chenxin-dlut/TransT.