منذ 11 أيام

مكس فورمر: التتبع من الطرف إلى الطرف باستخدام الانتباه المختلط التكراري

Yutao Cui, Cheng Jiang, Gangshan Wu, Limin Wang

الملخص

يُستخدم غالبًا التتبع البصري للأشياء في إطار متعدد المراحل يتضمن استخراج الميزات، ودمج معلومات الهدف، وتقدير الصندوق المحيط. ولتبسيط هذا الإطار وتوحيد عملية استخراج الميزات ودمج معلومات الهدف، نقدّم في هذه الورقة إطارًا مُدمجًا للتعقب يُسمى MixFormer، مبنيًا على الهياكل المحورية (Transformers). ويعتمد التصميم الأساسي لدينا على مرونة عمليات الانتباه، ونُقدّم وحدة انتباه مختلطة (Mixed Attention Module - MAM) تُمكّن من استخراج الميزات ودمج معلومات الهدف في آن واحد. يسمح هذا النموذج المتزامن باستخراج ميزات تمييزية مخصصة للهدف، ويعزز الاتصال الواسع بين منطقة الهدف ومنطقة البحث. وباستناد إلى MAM، نُنشئ مُتتبعات MixFormer ببساطة من خلال تجميع عدة وحدات MAM ووضع رأس تعيين مكاني (localization head) في الأعلى. وبشكل خاص، نُحدّد نوعين من متتبعات MixFormer: متتبع تسلسلي (MixCvT) ومتتبع غير تسلسلي (MixViT). ونُجري دراسة مفصلة لسلسلة من أساليب التدريب المسبق (pre-training) لهذه المتتبعات، ونُكشف عن السلوك المُختلف بين التدريب المُراقب والتدريب الذاتي التعلّم (self-supervised) في متتبعات MixFormer. كما نُوسع تدريب التدريب المُقنّع (masked pre-training) لتطبيقه على متتبعات MixFormer، ونُصمم تقنية تدريب مُتميزة تُسمى TrackMAE. وأخيرًا، لمعالجة نماذج متعددة للهدف أثناء التتبع في الوقت الفعلي، نُصمم مخطط انتباه غير متماثل في وحدة MAM لتقليل التكلفة الحسابية، ونُقدّم وحدة فعّالة لتنبؤ الدرجات لاختيار النماذج عالية الجودة. حققت متتبعات MixFormer أداءً جديدًا في قمة الأداء (state-of-the-art) على سبعة معايير للتعقب، منها LaSOT وTrackingNet وVOT2020 وGOT-10k وOTB100 وUAV123. وبشكل خاص، حقق MixViT-L درجة AUC قدرها 73.3% على LaSOT، و86.1% على TrackingNet، ودرجة EAO بلغت 0.584 على VOT2020، ودرجة AO بلغت 75.7% على GOT-10k. ويتوفر الكود والنماذج المدربة بشكل عام على الرابط: https://github.com/MCG-NJU/MixFormer.