SportsMOT: مجموعة بيانات ضخمة لتتبع كائنات متعددة في مشاهد رياضية متعددة

تلعب التتبع متعدد الكائنات في مشاهد الرياضة دورًا حاسمًا في جمع إحصائيات اللاعبين، ودعم التحليلات اللاحقة، مثل التحليل التكتيكي التلقائي. ومع ذلك، فإن المعايير الحالية لتتبع متعدد الكائنات تُهمل إلى حد كبير هذا المجال، مما يحد من تطوره. في هذا العمل، نقدم مجموعة بيانات جديدة كبيرة الحجم لتتبع متعدد الكائنات في مشاهد رياضية متنوعة، تُسمى \emph{SportsMOT}، حيث يُفترض تتبع جميع اللاعبين على الملعب. تتكون المجموعة من 240 تسلسلًا فيديو، تتجاوز 150 ألف إطار (ما يقارب 15 مرة معيار MOT17)، وحوالي 1.6 مليون مربع حدودي (3 أضعاف معيار MOT17)، جُمعت من ثلاث فئات رياضية، تشمل كرة السلة، الكرة الطائرة، وكرة القدم. يتميز هذا المجموعة بخاصيتين رئيسيتين: 1) حركة سريعة ومتغيرة السرعة، و2) مظهر متشابه لكنه قابل للتمييز. نتوقع أن يُشجع \emph{SportsMOT} مُتتبعي متعدد الكائنات على تطوير أدائهم في كلا نوعي الربط: الربط القائم على الحركة والربط القائم على المظهر. قمنا بتجريب عدة متتبعين من أحدث الأنظمة، وكشفنا أن التحدي الرئيسي في \emph{SportsMOT} يكمن في عملية ربط الكائنات. ولتخفيف هذه المشكلة، نقترح إطارًا جديدًا لتتبع متعدد الكائنات يُسمى \emph{MixSort}، والذي يُدخل بنية مشابهة لـ MixFormer كنموذج مساعد للربط ضمن الأنظمة الشائعة المبنية على التتبع من خلال الكشف. من خلال دمج الربط القائم على المظهر المخصص مع الربط القائم على الحركة الأصلي، يحقق \emph{MixSort} أداءً من الدرجة الأولى على \emph{SportsMOT} وMOT17. بناءً على \emph{MixSort}، نقدم تحليلًا متعمقًا ونقدًا عميقًا حول \emph{SportsMOT}. ستكون المجموعة والكود متاحين عبر الرابط: https://deeperaction.github.io/datasets/sportsmot.html.