HyperAIHyperAI
منذ 2 أشهر

TP-GMOT: تتبع الأجسام المتعددة العامة بواسطة الدعوة النصية مع تكلفة الحركة والمظهر (MAC) SORT

Anh, Duy Le Dinh ; Tran, Kim Hoang ; Le, Ngan Hoang
TP-GMOT: تتبع الأجسام المتعددة العامة بواسطة الدعوة النصية مع تكلفة الحركة والمظهر (MAC) SORT
الملخص

بينما أحرزت تقنيات تتبع الأشياء المتعددة (MOT) تقدمًا كبيرًا، فإنها تعاني من الاعتماد الشديد على المعرفة السابقة وتقتصر على فئات محددة مسبقًا. بالمقابل، يتطلب تتبع الأشياء المتعددة العام (GMOT)، وهو تتبع لأجسام متعددة ذات مظهر مشابه، معلومات سابقة أقل عن الأهداف ولكنه يواجه تحديات مع التغيرات مثل زاوية الرؤية، الإضاءة، التغطية والدقة. تبدأ إسهاماتنا بتقديم مجموعة بيانات جديدة تسمى \textbf{\text{Refer-GMOT dataset}}، وهي عبارة عن مجموعة من مقاطع الفيديو التي acompanها كل منها وصف نصي دقيق لخصائصها. بعد ذلك، نقدم إطار عمل جديد للتتبع المفتوح للمفردات GMOT يعتمد على النصوص التمهيدية ويُطلق عليه \textbf{\text{TP-GMOT}}، والذي يمكنه تتبع فئات أجسام لم يتم رؤيتها سابقًا بدون أمثلة تدريبية. ضمن إطار العمل \text{TP-GMOT}، نقدم مكونين جديدين: (i) \textbf{\text{TP-OD}}، وهو كشف الأجسام باستخدام النص التمهيدي (Text Prompt-based Object Detection)، للكشف الدقيق عن الأجسام غير المعروفة التي تتميز بخصائص معينة. (ii) \textbf{\text{MAC-SORT}} (Motion-Appearance Cost SORT)، وهو نهج جديد لتجميع الأجسام يدمج ببراعة استراتيجيات التجميع المستندة إلى الحركة والمظهر للتعامل مع المهمة المعقدة لتتبع أجسام عامة متعددة ذات تشابه عالٍ. يتم قياس إسهاماتنا على مجموعة بيانات \text{Refer-GMOT} في مهمة GMOT. بالإضافة إلى ذلك، لتقدير قابلية تعميم الإطار المقترح \text{TP-GMOT} وفعالية تتبع \text{MAC-SORT}، نجري دراسات تقليصية على مجموعتي بيانات DanceTrack و MOT20 في مهمة MOT. سيتم توفير مجموعة البيانات والكود والنماذج الخاصة بنا بشكل عام على الرابط التالي: https://fsoft-aic.github.io/TP-GMOT

TP-GMOT: تتبع الأجسام المتعددة العامة بواسطة الدعوة النصية مع تكلفة الحركة والمظهر (MAC) SORT | أحدث الأوراق البحثية | HyperAI