نحو تتبع متعدد الأهداف في الوقت الحقيقي

تتبع الأهداف المتعددة الحديث (MOT) عادةً ما يتبع نموذج \emph{التتبع عبر الكشف} (tracking-by-detection). يتكون هذا النموذج من 1) نموذج كشف لتحديد موقع الهدف، و2) نموذج تضمين المظهر لربط البيانات. قد يؤدي تنفيذ هذين النموذجين بشكل منفصل إلى مشاكل في الكفاءة، حيث يكون وقت التشغيل مجرد مجموع الخطوتين دون استكشاف الهياكل المحتملة التي يمكن أن تشترك بينهما. تركز الجهود البحثية الحالية في مجال تتبع الأهداف المتعددة في الوقت الحقيقي عادةً على خطوة الربط، لذلك فهي أساليب ربط في الوقت الحقيقي بالأساس وليس أنظمة MOT في الوقت الحقيقي. في هذا البحث، نقترح نظام MOT يسمح بتعلم الكشف عن الأهداف وتضمين المظهر في نموذج مشترك. بشكل خاص، قمنا بدمج نموذج تضمين المظهر في كاشف ذو طلقة واحدة (single-shot detector)، بحيث يمكن للنموذج إخراج الاكتشافات والتضمينات المقابلة بشكل متزامن. كما اقترحنا طريقة ربط بسيطة وسريعة تعمل بالتوازي مع النموذج المشترك. يتم تخفيض التكلفة الحسابية بشكل كبير في كل من المكونين مقارنة بأنظمة MOT السابقة، مما يؤدي إلى وجود أساس واضح وسريع للبحوث المستقبلية في تصميم الخوارزميات الزمنية الحقيقية لتتبع الأهداف المتعددة. حسب علمنا، يعتبر هذا العمل أول نظام (قريب من) الوقت الحقيقي لتتبع الأهداف المتعددة، بمعدل سرعة تشغيل يتراوح بين 22 و40 إطارًا في الثانية اعتمادًا على دقة الإدخال. وفي الوقت نفسه، فإن دقة التتبع الخاصة به تعادل أحدث التقنيات التي تعتمد على تعلم الكشف والتضمين المنفصل (SDE) ($64.4\%$ MOTA مقابل $66.1\%$ MOTA في تحدي MOT-16). يمكن الحصول على الرموز والنموذج من \url{https://github.com/Zhongdao/Towards-Realtime-MOT}.