ETTrack: مُنبِت حركة زمنية مُحسَّن لتتبع الكائنات المتعددة

تستغل العديد من Approaches لتتبع الكائنات المتعددة (MOT) معلومات الحركة لربط جميع الكائنات المكتشفة عبر الإطارات. ومع ذلك، غالبًا ما تُظهر الطرق التي تعتمد على خوارزميات التصفية، مثل مرشح كالمان، أداءً جيدًا في السيناريوهات التي تتسم بالحركة الخطية، لكنها تواجه صعوبة في التنبؤ بدقة بمواقع الكائنات التي تتحرك بطرق معقدة وغير خطية. وللتغلب على هذه السيناريوهات، نقترح منهجية لتتبع الكائنات المتعددة تعتمد على الحركة، تُسمى ETTrack، والتي تتميز بمحرّك حركة زمني مُحسّن. بشكل خاص، يدمج مُحرّك الحركة نموذجًا مُحَوِّلًا (Transformer) وشبكة ت(Convolutional Network) زمنية (TCN) لالتقاط أنماط الحركة قصيرة المدى وطويلة المدى، ويُقدّر حركة الكائنات الفردية في المستقبل بناءً على المعلومات التاريخية للحركة. علاوةً على ذلك، نُقدّم دالة خسارة جديدة تُسمى "مُصحّح الزخم" (Momentum Correction Loss)، والتي تُزوّد النموذج بمعلومات إضافية حول اتجاه حركة الكائنات أثناء التدريب. وهذا يمكّن مُحرّك الحركة من التكيّف بسرعة مع التغيرات في الحركة، ويوفر تنبؤات أكثر دقة بالحركة المستقبلية. أظهرت نتائج التجارب أن ETTrack تحقق أداءً تنافسيًا مقارنةً بأفضل المُتتبعات الحالية على مجموعتي بيانات DanceTrack وSportsMOT، حيث سجّلت 56.4% و74.4% على التوالي في معيار HOTA.