HyperAIHyperAI
منذ 2 أشهر

MixFormer: تتبع من النهاية إلى النهاية باستخدام الانتباه المختلط التكراري

Yutao Cui; Cheng Jiang; Limin Wang; Gangshan Wu
MixFormer: تتبع من النهاية إلى النهاية باستخدام الانتباه المختلط التكراري
الملخص

يُستخدم تتبع الأهداف غالبًا من خلال خط أنابيب متعدد المراحل يشمل استخراج الميزات، دمج معلومات الهدف، وتقدير الصندوق الحدودي. لتبسيط هذا الخط الأنابيب وتوحيد عملية استخراج الميزات ودمج معلومات الهدف، نقدم إطارًا تتبعيًا مضغوطًا يُسمى MixFormer، وهو مبني على أساس المتحولات (transformers). تصميمنا الأساسي هو الاستفادة من مرونة عمليات الانتباه (attention)، واقتراح وحدة انتباه مختلطة (Mixed Attention Module - MAM) لاستخراج الميزات ودمج معلومات الهدف بشكل متزامن. يسمح هذا النموذج المتزامن باستخراج خصائص تمييزية خاصة بالهدف وإجراء تواصل واسع بين منطقة الهدف ومنطقة البحث. بناءً على الوحدة MAM، نقوم ببناء إطار MixFormer الخاص بنا ببساطة عن طريق تجميع عدة وحدات MAM مع غرس الشظايا التدريجي وضع رأس تحديد الموقع في الأعلى. بالإضافة إلى ذلك، للتعامل مع قوالب أهداف متعددة أثناء التتبع عبر الإنترنت، نصمم نظام انتباه غير متماثل في الوحدة MAM لتقليل التكلفة الحسابية، ونقترح وحدة تنبؤ فعالة بالدرجات لاختيار القوالب ذات الجودة العالية. يحدد MixFormer الخاص بنا مستوى أداء جديد في الطليعة على خمسة مقاييس تتبعية، بما في ذلك LaSOT، TrackingNet، VOT2020، GOT-10k، وUAV123. بشكل خاص، يصل MixFormer-L إلى درجة NP بنسبة 79.9% على LaSOT، 88.9% على TrackingNet ومتوسط EAO بمقدار 0.555 على VOT2020. كما نجري دراسات تقشير عميقة لإظهار فعالية استخراج الميزات والدمج المعلوماتي المتزامنين. الرمز البرمجي والنموذج المدرب متاحان بشكل عام على الرابط https://github.com/MCG-NJU/MixFormer.