MS-TCT: تحويلية زمنية متعددة المقياس للكشف عن الحركات

كشف الحركة هو مهمة أساسية وصعبة، خاصة بالنسبة إلى مجموعات البيانات المُعلَّمة بكثافة في مقاطع الفيديو غير المُقَصَّصة. تكون العلاقات الزمنية معقدة في هذه المجموعات، بما في ذلك التحديات مثل الحركات المركبة والحركات المتزامنة. وللكشف عن الحركات في هذه المقاطع المعقدة، يُعدّ اكتساب المعلومات الزمنية القصيرة والطويلة بشكل فعّال أمرًا بالغ الأهمية. ولتحقيق ذلك، نقترح شبكة ConvTransformer جديدة لكشف الحركة. تتكوّن هذه الشبكة من ثلاثة مكونات رئيسية: (1) وحدة المُشفِّر الزمني التي تستكشف على نطاق واسع العلاقات الزمنية المحلية والعالمية على عدة مقاييس زمنية متعددة. (2) وحدة مُمزج المقياس الزمني التي تُدمج بشكل فعّال الميزات متعددة المقاييس للحصول على تمثيل موحد للميزات. (3) وحدة التصنيف التي تُستخدم لتعلم الموقع النسبي بالنسبة إلى مركز المثال وتتنبأ بنتائج التصنيف على مستوى الإطار. وتوصّل التجارب الواسعة على عدة مجموعات بيانات، بما في ذلك Charades وTSU وMultiTHUMOS، إلى تأكيد فعالية الطريقة المقترحة. كما تتفوّق شبكتنا على الطرق الأفضل حالياً في جميع ثلاث مجموعات بيانات.