SMILEtrack: تعلّم التشابه SiMIlarity للتعقب المتعدد للأجسام المُتعددة المُدرك للإغلاق

على الرغم من التقدم الأخير في تتبع الكائنات المتعددة (MOT)، تظل عوامل عديدة مثل التداخل، والكائنات الشبيهة، والمشاهد المعقدة تمثل تحديًا مفتوحًا. وفي الوقت نفسه، لا تزال دراسة منهجية لعلاقة التكلفة بالأداء في النموذج الشائع للاستدلال من خلال الكشف (tracking-by-detection) مفقودة. يقدّم هذا البحث نظام SMILEtrack، مُتتبع كائنات مبتكر يعالج هذه التحديات بشكل فعّال من خلال دمج كاشف كائنات كفؤ مع وحدة تعلّم التشابه القائمة على الشبكة السيامية (SLM). تتمحور المساهمات التقنية لـ SMILETrack في جوانب متعددة. أولاً، نقترح وحدة SLM التي تحسب التشابه في المظهر بين كائنين، مما يتجاوز قيود وصفات الميزات في النماذج التي تعتمد على الكشف والتمثيل المنفصل (SDE). وتتضمن وحدة SLM بلوكًا ذات انتباه متقطع (PSA) مستوحى من نموذج الرؤية المُعتمد على الترانسفورمر (Vision Transformer)، والذي يُنتج ميزات موثوقة لتمكين مطابقة دقيقة للتشابه. ثانيًا، نطوّر وحدة مطابقة التشابه متعددة المراحل (SMC) ذات دالة GATE مبتكرة، تضمن مطابقة كائنية قوية عبر الإطارات المتتالية في الفيديو، مما يعزز أداء تتبع الكائنات المتعددة بشكل إضافي. جنبًا إلى جنب، تسهم هذه الابتكارات في تحقيق توازن محسّن بين التكلفة (مثل سرعة التشغيل) والأداء (مثل دقة التتبع) مقارنةً بعدة معايير حديثة متميزة، بما في ذلك الطريقة الشهيرة BYTETrack. ويتفوّق SMILETrack على BYTETrack بنسبة 0.4–0.8 نقاط في معيار MOTA و2.1–2.2 نقطة في معيار HOTA على مجموعتي بيانات MOT17 وMOT20. يُمكن الاطلاع على الكود من خلال الرابط: https://github.com/pingyang1117/SMILEtrack_Official