HyperAIHyperAI
منذ 17 أيام

شبكة ت(Convolutional) زمنية منفصلة عميقة لتقسيم الحركات

{Heiko Neumann, Wolfgang Mader, Christian Jarvers, Basavaraj Hampiholi}
الملخص

التحليل الدقيق للزمن في الأفعال داخل مقاطع الفيديو الطويلة وغير المُعدّلة بالألوان (RGB) يُعد موضوعًا رئيسيًا في التفاعل البصري بين الإنسان والآلة. تستخدم الطرق الحديثة القائمة على التحويل الزمني إما بنية المُشفّر-المُفكّك (ED) أو التوسيع (dilations) بعامل مُضاعف في طبقات التحويل المتتالية لتقسيم الأفعال في الفيديوهات. ومع ذلك، تعمل شبكات ED على دقة زمنية منخفضة، كما أن التوسيع في الطبقات المتتالية يسبب مشكلة تُعرف بـ "آثار الشبكة" (gridding artifacts). نقترح شبكة التحويل الزمني المفصّل بعمق (DS-TCN) التي تعمل على الدقة الزمنية الكاملة وتقلل من تأثيرات الشبكة. يُشكّل المُكوّن الأساسي لـ DS-TCN كتلة التوسيع العميقي المتكررة (RDDB). ونستكشف التوازن بين استخدام كيرنيلات كبيرة ونِسَب توسيع صغيرة باستخدام RDDB. ونُظهر أن DS-TCN قادرة على التقاط الاعتماديات الطويلة الأمد والدلائل الزمنية المحلية بكفاءة. كما أظهرت تقييماتنا على ثلاث مجموعات معيارية (GTEA، 50Salads، Breakfast) أن DS-TCN تتفوّق على النماذج القائمة على ED-TCN والأساليب القائمة على التوسيع، حتى مع عدد أقل من المعاملات المُقارنة.