HyperAIHyperAI

Command Palette

Search for a command to run...

SwinTrack: قاعدة بسيطة وقوية للتتبع باستخدام المحولات

Liting Lin Heng Fan Zhipeng Zhang Yong Xu Haibin Ling

الملخص

في الآونة الأخيرة، تم استكشاف مُحَوِّل (Transformer) على نطاق واسع في مجال التتبع، حيث أظهر أداءً متميزًا (SOTA). ومع ذلك، تتركز الجهود الحالية بشكل رئيسي على دمج وتحسين الميزات الناتجة عن الشبكات العصبية التلافيفية (CNNs). ما زال هناك مجال واسع لاستكشاف الإمكانات الكامنة لمُحَوِّل في تعلم التمثيل (representation learning). في هذه الورقة، نهدف إلى توظيف القوة الكاملة لمُحَوِّل من خلال اقتراح مُتتبع بسيط وفعال بالكامل يستند إلى الانتباه (fully-attentional)، يُسمى SwinTrack، ضمن الإطار الكلاسيكي للشبكة المتشابهة (Siamese). وبشكل خاص، يعتمد SwinTrack على بنية مُحَوِّل في كل من تعلم التمثيل ودمج الميزات، مما يتيح تفاعلات أفضل بين الميزات مقارنةً بالأنظمة القائمة على CNN فقط أو الهجينة بين CNN وTransformer. علاوةً على ذلك، لتعزيز الموثوقية بشكل أكبر، نقدّم نوعًا جديدًا من "الرموز الحركية" (motion token) يُدمج فيه مسار الهدف التاريخي لتحسين التتبع من خلال توفير سياق زمني. ويتميز هذا الرمز الحركي بأنه خفيف جدًا من حيث الحسابات ولا يُضيف عبئًا معنويًا، لكنه يُحقق مكاسب واضحة. في تجاربنا الشاملة، تفوق SwinTrack على الطرق الحالية على عدة معايير معيارية. وبشكل خاص، حقق رقماً قياسيًا جديداً على المعيار الصعب LaSOT بحصوله على درجة SUC قدرها 0.713. كما حقق أداءً متميزًا على معايير أخرى. نتوقع أن يُعدّ SwinTrack قاعدة صلبة للبحث في مجال التتبع القائم على مُحَوِّل، ويساهم في دفع عجلة الأبحاث المستقبلية. تم إصدار الشفرات والنتائج على الرابط: https://github.com/LitingLin/SwinTrack.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp