Strong-TransCenter: تحسين تتبع الأهداف المتعددة باستخدام الترانسفورمر مع التمثيلات الكثيفة

في السنوات الأخيرة، كانت شبكات الـ Transformer محور بحث في العديد من المجالات، حيث تمكنت من تجاوز الأداء الرائد في مهام مختلفة لرؤية الحاسوب. ومع ذلك، في مهمة تتبع الأجسام المتعددة (MOT)، لا يزال استغلال قوة الـ Transformers نسبيًا غير مستكشف. من بين الجهود الرائدة في هذا المجال، أظهرت TransCenter، وهي هندسة MOT تعتمد على الـ Transformer مع استعلامات كثيفة للأجسام، قدرات تتبع استثنائية مع الحفاظ على وقت تشغيل معقول. ومع ذلك، فإن جانبًا حاسمًا واحدًا في MOT وهو تقدير ازاحة المسار (track displacement estimation) يوفر مجالًا للتحسين لتقليل أخطاء الجمع. رداً على هذا التحدي، يقدم بحثنا تحسينًا جديدًا لـ TransCenter. نقترح آلية ما بعد المعالجة تستند إلى نموذج "التتبع عن طريق الكشف" (Track-by-Detection)، بهدف تحسين تقدير ازاحة المسار. يتضمن نهجنا دمج مرشح Kalman مصمم بدقة، والذي يدمج خرجات الـ Transformer في تقدير خطأ القياس، واستخدام شبكة تضمين (embedding network) لإعادة تحديد الأهداف. هذه الاستراتيجية المركبة تحقق تحسنًا كبيرًا في دقة ومتانة عملية التتبع. نحن نتحقق من إسهاماتنا من خلال تجارب شاملة على مجموعات بيانات MOTChallenge MOT17 وMOT20، حيث يتفوق النهج المقترح على المتعقبات الأخرى التي تعتمد على الـ Transformer. الكود متاح بشكل عام عبر الرابط: https://github.com/amitgalor18/STC_Tracker