Command Palette
Search for a command to run...
شبكات الأجزاء الزمنية: نحو ممارسات جيدة للتعرف على الحركة العميقة
شبكات الأجزاء الزمنية: نحو ممارسات جيدة للتعرف على الحركة العميقة
الملخص
أظهرت الشبكات العميقة التلافيفية نجاحًا كبيرًا في التعرف على الصور الثابتة. ومع ذلك، فإن الميزة النسبية مقارنة بالطرق التقليدية في التعرف على الحركات في الفيديوهات ليست واضحة بنفس الدرجة. يهدف هذا البحث إلى اكتشاف المبادئ التي تُسهم في تصميم بنى فعّالة للشبكات التلافيفية (ConvNet) للتعرف على الحركات في الفيديوهات، مع التعلّم على هذه النماذج رغم قلة عينات التدريب المتاحة. إن إسهامنا الأول هو شبكة الأجزاء الزمنية (Temporal Segment Network - TSN)، وهي إطار عمل جديد للتعرف على الحركات القائمة على الفيديو، يعتمد على فكرة نمذجة البنية الزمنية الطويلة المدى. حيث تجمع بين استراتيجية أخذ عينات زمنية متباعدة (نادرة) ورقابة على مستوى الفيديو، مما يمكّن من التعلّم بكفاءة وفعالية باستخدام الفيديو الكامل للحركة. أما الإسهام الثاني فهو دراستنا لسلسلة من الممارسات المثلى في تعلّم الشبكات التلافيفية على بيانات الفيديو، وذلك بمساعدة شبكة الأجزاء الزمنية. وتحقيقًا لهذه الغاية، تمكّن نهجنا من تحقيق أفضل أداء مُسجّل (state-of-the-art) على مجموعتي بيانات HMDB51 (بنسبة 69.4%) وUCF101 (بنسبة 94.2%). كما قمنا بتصور النماذج المُتعلّمة للشبكة التلافيفية، مما يُظهر بشكل كمي تأثير شبكة الأجزاء الزمنية والممارسات المُقترحة.