إعادة التفكير في المنافسة بين الكشف وReID في تتبع الكائنات المتعددة

بسبب التوازن بين الدقة والسرعة، لاقت نماذج "واحدة الاطلاع" التي تتعلم بشكل مشترك تمثيلات الكشف والتعريف، اهتمامًا كبيرًا في تتبع الكائنات المتعددة (MOT). ومع ذلك، تُهمل التباينات والعلاقات الجوهرية بين الكشف والتعريف المُعاد (ReID) بشكل غير مقصود، نظرًا لاعتبارهما مهامًا منفصلة في نموذج تتبع "واحد الاطلاع". هذا يؤدي إلى أداء أقل مقارنةً بالطرق الثنائية المراحل الحالية. في هذه الورقة، نُحلِّل أولًا عملية الاستدلال الخاصة بهذه المهمتين، مما يكشف أن التنافس بينهما يُعد أمرًا لا مفر منه ويؤدي إلى تدمير تعلم التمثيلات المرتبطة بالمهام. لمعالجة هذه المشكلة، نقترح شبكة تبادلية جديدة (REN) تتميز بتصميم يشمل علاقة ذاتية وعلاقة متقاطعة، بهدف تشجيع كل فرع على تعلم تمثيلات مرتبطة بالمهام بشكل أفضل. يهدف النموذج المقترح إلى تخفيف التأثير السلبي للمنافسة بين المهام، في الوقت نفسه تحسين التعاون بين الكشف والتعريف المُعاد. علاوةً على ذلك، نُقدِّم شبكة انتباه مُدركة للقياس (SAAN) التي تمنع التمايز على المستوى الدلالي، مما يعزز قدرة الترابط للتمثيلات الهوية (ID). من خلال دمج الشبكتين المُصممتين بدقة في نظام تتبع مباشر من نوع "واحد الاطلاع"، نُنشئ مُتابعًا قويًا لـ MOT يُسمى CSTrack. يحقق مُتابعنا أداءً متفوقًا على مجموعة بيانات MOT16 وMOT17 وMOT20، دون الحاجة إلى إضافات إضافية. علاوةً على ذلك، يتميز CSTrack بالكفاءة، حيث يعمل بسرعة 16.4 إطارًا في الثانية على بطاقة رسوميات حديثة واحدة، في حين تعمل النسخة الخفيفة منه بسرعة 34.6 إطارًا في الثانية. تم إصدار الشفرة الكاملة على الرابط التالي: https://github.com/JudasDie/SOTS.