ألفا-ريفين: تعزيز أداء التتبع من خلال تقدير دقيق لمربعات الحدود

يهدف التتبع البصري للأجسام إلى تقدير دقيق لمربع الحدود (bounding box) للهدف المعطى، وهو مشكلة صعبة ناتجة عن عوامل مثل التشوه والاختباء. تستخدم العديد من المُتتبعات الحديثة استراتيجية التتبع متعددة المراحل لتحسين جودة تقدير مربع الحدود. تقوم هذه الطرق أولاً بتحديد موقع خشن للهدف، ثم تحسين التقدير الأولي في المراحل اللاحقة. ومع ذلك، ما زالت الطرق الحالية تعاني من دقة محدودة، كما أن الارتباط بين المراحل المختلفة يحد بشدة من قابلية نقل الأداء بين النماذج. تقدم هذه الدراسة وحدة تحسين جديدة ومُتعددة الاستخدامات ودقيقة تُسمى Alpha-Refine (AR)، والتي يمكنها تحسين جودة تقدير مربع الحدود للنماذج الأساسية بشكل كبير. من خلال استكشاف مجموعة من خيارات التصميم، نستنتج أن المفتاح الناجح في التحسين يكمن في استخلاص الحفاظ على أقصى قدر ممكن من المعلومات المكانية التفصيلية. وفقًا لهذا المبدأ، تستخدم Alpha-Refine كمكونات أساسية التماثل على مستوى البكسل (pixel-wise correlation)، ورأس تنبؤ بالزوايا (corner prediction head)، ورأس قناع مساعد (auxiliary mask head). أظهرت التجارب الشاملة على معايير تتبع مثل TrackingNet، LaSOT، GOT-10K، وVOT2020، باستخدام عدة متتبعات أساسية، أن منهجنا يحسن أداء المتتبعات الأساسية بشكل ملحوظ مع إضافة تأخير ضئيل جدًا. يؤدي المنهج المقترح Alpha-Refine إلى سلسلة من المتتبعات المُعززة، من بينها ARSiamRPN (الذي يُعد تحسينًا لـ SiamRPNpp) وARDiMP50 (الذي يُعد تحسينًا لـ DiMP50)، حيث تحقق كليهما توازنًا جيدًا بين الكفاءة والدقة، في حين أن ARDiMPsuper (الذي يُعد تحسينًا لـ DiMP-super) يحقق أداءً تنافسيًا للغاية بسرعة زمنية حقيقية. يمكن الوصول إلى الكود والنماذج المُدرّبة مسبقًا من خلال الرابط: https://github.com/MasterBin-IIAU/AlphaRefine.