Command Palette
Search for a command to run...
شبكات الأجزاء الزمنية للتعرف على الأفعال في الفيديوهات
شبكات الأجزاء الزمنية للتعرف على الأفعال في الفيديوهات
الملخص
لقد حققت الشبكات العميقة التلافيفية نجاحًا كبيرًا في التعرف على الصور. ومع ذلك، فإن ميزة هذه الشبكات مقارنة بالطرق التقليدية في التعرف على الحركات في الفيديوهات ليست واضحة بشكل كبير. نقدم إطارًا عامًا ومرنًا لتعلم نماذج الحركات في الفيديوهات على مستوى الفيديو. يُسمى هذا الأسلوب بشبكة الأقسام الزمنية (Temporal Segment Network - TSN)، ويتناول نمذجة الهياكل الزمنية الطويلة المدى من خلال وحدة جديدة للأخذ العيني والدمج تعتمد على التقسيم. تُمكّن هذه التصميم الفريد من تعلّم نماذج الحركات بكفاءة باستخدام الفيديوهات الكاملة للحركة. ويمكن تكييف النماذج المُكتسبة بسهولة للتعرف على الحركات في الفيديوهات المُقطوعة والمُطولة باستخدام التجميع المتوسط البسيط ودمج النوافذ الزمنية متعددة المقاييس، على التوالي. كما قمنا بدراسة سلسلة من الممارسات المثلى لتعميم إطار TSN عند توفر عينات تدريب محدودة. وقد حقق أسلوبنا أداءً متقدمًا على أربع معايير صعبة للتعرف على الحركات: HMDB51 (71.0%)، UCF101 (94.9%)، THUMOS14 (80.1%)، وActivityNet v1.2 (89.6%). وبالاعتماد على الفرق اللوني المقترح (RGB difference) لتمثيل الحركة، تمكّن طريقة لدينا من تحقيق دقة تنافسية على UCF101 (91.0%) مع أداء بسرعة 340 إطارًا في الثانية. علاوة على ذلك، وباستناد إلى شبكات الأقسام الزمنية، فزنا بمنافسة تصنيف الفيديوهات في مسابقة ActivityNet 2016 بين 24 فريقًا، مما يدل على فعالية TSN والمبادئ المثلى المقترحة.