شبكات التوقيت المت convoled للتمييز والكشف عن الأفعال

القدرة على تحديد وتقسيم زمني للأفعال البشرية الدقيقة طوال الفيديو تعد ضرورية للروبوتات والمراقبة والتعليم وغيرها من المجالات. تفصل الأساليب النموذجية هذه المشكلة من خلال استخراج الميزات المكانية الزمنية المحلية أولاً من الإطارات الفيديوية، ثم إدخالها إلى تصنيف زمني يلتقط الأنماط الزمنية العليا. نقدم فئة جديدة من النماذج الزمنية التي نطلق عليها شبكات التحويل الزمني (Temporal Convolutional Networks - TCNs)، والتي تستخدم هرمًا من التحويلات الزمنية لإجراء تقسيم أو كشف دقيق للأفعال. يستخدم نموذجنا المُشفر-المُفكك TCN التقسيم والتضخيم لالتقاط الأنماط الزمنية طويلة المدى بكفاءة، بينما يستخدم نموذجنا TCN الموسّع التحويلات الموسّعة. نظهر أن شبكات TCN قادرة على الالتقاط تركيب الأفعال ومدتها والارتباطات طويلة المدى، وهي أسرع بمقدار كبير في التدريب مقارنة بالشبكات العصبية المتكررة المستندة إلى LSTM المنافسة. نطبق هذه النماذج على ثلاثة مجموعات بيانات دقيقة ومعقدة ونظهر تحسينات كبيرة على الحالة الحالية للتقنية.