HyperAIHyperAI
منذ 13 أيام

MS-TCN++: شبكة ت(Convolutional) زمنية متعددة المراحل لتقسيم الإجراءات

Shijie Li, Yazan Abu Farha, Yun Liu, Ming-Ming Cheng, Juergen Gall
MS-TCN++: شبكة ت(Convolutional) زمنية متعددة المراحل لتقسيم الإجراءات
الملخص

مع نجاح التعلم العميق في تصنيف مقاطع الفيديو القصيرة المقطوعة، أصبح التركيز ينصب بشكل متزايد على تقسيم الأنشطة زمنيًا وتصنيفها في مقاطع فيديو طويلة غير مقطوعة. تستخدم الطرق الرائدة في تصنيف الأنشطة تسلسلًا من طبقات متعددة من التحويلات الزمنية (temporal convolution) والتقسيم الزمني (temporal pooling). وعلى الرغم من القدرة المتميزة لهذه الطرق في التقاط الاعتماديات الزمنية، فإن توقعاتها تعاني من أخطاء في التقسيم الزائد (over-segmentation). في هذا البحث، نقترح معمارية متعددة المراحل لمهام تقسيم الأنشطة الزمنية، والتي تتجاوز القيود التي تواجه الطرق السابقة. تُولِّد المرحلة الأولى توقعًا أوليًا، يُحسَّن تدريجيًا من خلال المراحل اللاحقة. في كل مرحلة، نُرَكِّب عدة طبقات من التحويلات الزمنية المُتَوَسِّعة (dilated temporal convolutions) التي تغطي مجال استقبال واسع بعدد قليل من المعاملات. وعلى الرغم من الأداء الجيد لهذه المعمارية، لا يزال للطبقات السفلى مجال استقبال صغير. لمعالجة هذه القيود، نقترح طبقة مزدوجة التوسع (dual dilated layer) التي تدمج بين مجالات استقبال كبيرة وصغيرة. كما نُفَصل تصميم المرحلة الأولى عن مراحل التحسين لمعالجة المتطلبات المختلفة لكل مرحلة. تُظهر التقييمات الواسعة فعالية النموذج المقترح في التقاط الاعتماديات على مدى طويل والتقدير الدقيق للقطع الزمنية للأنشطة. وتحقيق نماذجنا نتائج رائدة في مجال التكنولوجيا (state-of-the-art) على ثلاث مجموعات بيانات: 50Salads، وبيانات الأنشطة الإيغوسنتريك من جامعة جورجيا التقنية (GTEA)، وبيانات Breakfast.