MS-TCN++: شبكة ت(Convolutional) زمنية متعددة المراحل لتقسيم الإجراءات

مع نجاح التعلم العميق في تصنيف مقاطع الفيديو القصيرة المقطوعة، أصبح التركيز ينصب بشكل متزايد على تقسيم الأنشطة زمنيًا وتصنيفها في مقاطع فيديو طويلة غير مقطوعة. تستخدم الطرق الرائدة في تصنيف الأنشطة تسلسلًا من طبقات متعددة من التحويلات الزمنية (temporal convolution) والتقسيم الزمني (temporal pooling). وعلى الرغم من القدرة المتميزة لهذه الطرق في التقاط الاعتماديات الزمنية، فإن توقعاتها تعاني من أخطاء في التقسيم الزائد (over-segmentation). في هذا البحث، نقترح معمارية متعددة المراحل لمهام تقسيم الأنشطة الزمنية، والتي تتجاوز القيود التي تواجه الطرق السابقة. تُولِّد المرحلة الأولى توقعًا أوليًا، يُحسَّن تدريجيًا من خلال المراحل اللاحقة. في كل مرحلة، نُرَكِّب عدة طبقات من التحويلات الزمنية المُتَوَسِّعة (dilated temporal convolutions) التي تغطي مجال استقبال واسع بعدد قليل من المعاملات. وعلى الرغم من الأداء الجيد لهذه المعمارية، لا يزال للطبقات السفلى مجال استقبال صغير. لمعالجة هذه القيود، نقترح طبقة مزدوجة التوسع (dual dilated layer) التي تدمج بين مجالات استقبال كبيرة وصغيرة. كما نُفَصل تصميم المرحلة الأولى عن مراحل التحسين لمعالجة المتطلبات المختلفة لكل مرحلة. تُظهر التقييمات الواسعة فعالية النموذج المقترح في التقاط الاعتماديات على مدى طويل والتقدير الدقيق للقطع الزمنية للأنشطة. وتحقيق نماذجنا نتائج رائدة في مجال التكنولوجيا (state-of-the-art) على ثلاث مجموعات بيانات: 50Salads، وبيانات الأنشطة الإيغوسنتريك من جامعة جورجيا التقنية (GTEA)، وبيانات Breakfast.