تعلم دمج خرائط الميزات غير المتزنة في المراقبة السيماسية

في الآونة الأخيرة، حققت المُتتبعات المستندة إلى نموذج سياميز أداءً واعدًا في تتبع الصور البصرية. تستخدم معظم المُتتبعات الحديثة المستندة إلى سياميز بشكل شائع عملية الضرب التبادلي العميق (DW-XCorr) للحصول على معلومات الترابط متعدد القنوات من خريطةَي الميزات (الهدف ونطاق البحث). ومع ذلك، فإن DW-XCorr يعاني من عدة قيود داخل المُتتبعات المستندة إلى سياميز: فهو يُسهَل خداعه بواسطة العناصر المُشتتة، ويُفعّل عددًا أقل من القنوات، ويُقدّم تمييزًا ضعيفًا لحدود الكائن. علاوةً على ذلك، فإن DW-XCorr هو وحدة مُصممة يدويًا ودون مُعاملات قابلة للتعلم، ولا يمكنها الاستفادة الكاملة من التعلّم المسبق على بيانات ضخمة. نقترح وحدة قابلة للتعلّم تُسمى الت convolution غير المتماثل (ACM)، والتي تتعلم بشكل أفضل استخلاص معلومات الترابط الدلالي خلال التدريب المسبق على بيانات ضخمة. على عكس DW-XCorr وسابقه (XCorr)، اللذين يعتبران خريطة ميزة واحدة كواحدة من نوى الت convolution، فإن ACM تُفكك عملية الت convolution على خريطة ميزات مُدمجة إلى عمليتين رياضيتين متكافئتين، مما يُجنب الحاجة إلى أن تكون خريطة الميزات متماثلة من حيث العرض والارتفاع أثناء التجميع. يمكن لـ ACM دمج معلومات سابقة مفيدة، مثل حجم مربع الحدود (bounding-box)، إلى جانب الميزات البصرية القياسية. علاوةً على ذلك، يمكن دمج ACM بسهولة في المُتتبعات السياميز الحالية المستندة إلى DW-XCorr أو XCorr. لاختبار قدرة التعميم، قمنا بدمج ACM في ثلاث مُتتبعات تمثيلية: SiamFC و SiamRPN++ و SiamBAN. أظهرت تجاربنا فوائد الوحدة المقترحة، حيث تفوقت على الطرق الحالية في ستة مجموعات اختبار تتبع. وعلى مجموعة اختبار LaSOT، حقق مُتتبعنا القائم على ACM تحسنًا كبيرًا بنسبة 5.8% في مقياس النجاح (AUC) مقارنةً بالنموذج الأساسي.