HyperAIHyperAI

Command Palette

Search for a command to run...

مكس فورمر: التتبع من الطرف إلى الطرف باستخدام الانتباه المختلط التكراري

Yutao Cui Cheng Jiang Gangshan Wu Limin Wang

الملخص

يُستخدم غالبًا التتبع البصري للأشياء في إطار متعدد المراحل يتضمن استخراج الميزات، ودمج معلومات الهدف، وتقدير الصندوق المحيط. ولتبسيط هذا الإطار وتوحيد عملية استخراج الميزات ودمج معلومات الهدف، نقدّم في هذه الورقة إطارًا مُدمجًا للتعقب يُسمى MixFormer، مبنيًا على الهياكل المحورية (Transformers). ويعتمد التصميم الأساسي لدينا على مرونة عمليات الانتباه، ونُقدّم وحدة انتباه مختلطة (Mixed Attention Module - MAM) تُمكّن من استخراج الميزات ودمج معلومات الهدف في آن واحد. يسمح هذا النموذج المتزامن باستخراج ميزات تمييزية مخصصة للهدف، ويعزز الاتصال الواسع بين منطقة الهدف ومنطقة البحث. وباستناد إلى MAM، نُنشئ مُتتبعات MixFormer ببساطة من خلال تجميع عدة وحدات MAM ووضع رأس تعيين مكاني (localization head) في الأعلى. وبشكل خاص، نُحدّد نوعين من متتبعات MixFormer: متتبع تسلسلي (MixCvT) ومتتبع غير تسلسلي (MixViT). ونُجري دراسة مفصلة لسلسلة من أساليب التدريب المسبق (pre-training) لهذه المتتبعات، ونُكشف عن السلوك المُختلف بين التدريب المُراقب والتدريب الذاتي التعلّم (self-supervised) في متتبعات MixFormer. كما نُوسع تدريب التدريب المُقنّع (masked pre-training) لتطبيقه على متتبعات MixFormer، ونُصمم تقنية تدريب مُتميزة تُسمى TrackMAE. وأخيرًا، لمعالجة نماذج متعددة للهدف أثناء التتبع في الوقت الفعلي، نُصمم مخطط انتباه غير متماثل في وحدة MAM لتقليل التكلفة الحسابية، ونُقدّم وحدة فعّالة لتنبؤ الدرجات لاختيار النماذج عالية الجودة. حققت متتبعات MixFormer أداءً جديدًا في قمة الأداء (state-of-the-art) على سبعة معايير للتعقب، منها LaSOT وTrackingNet وVOT2020 وGOT-10k وOTB100 وUAV123. وبشكل خاص، حقق MixViT-L درجة AUC قدرها 73.3% على LaSOT، و86.1% على TrackingNet، ودرجة EAO بلغت 0.584 على VOT2020، ودرجة AO بلغت 75.7% على GOT-10k. ويتوفر الكود والنماذج المدربة بشكل عام على الرابط: https://github.com/MCG-NJU/MixFormer.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp