HyperAIHyperAI
منذ 2 أشهر

تجاوز التجميع الزمني: التكرار والتشابك الزمني لتمييز الإيماءات في الفيديو

Lionel Pigou; Aäron van den Oord; Sander Dieleman; Mieke Van Herreweghe; Joni Dambre
تجاوز التجميع الزمني: التكرار والتشابك الزمني لتمييز الإيماءات في الفيديو
الملخص

أظهرت الدراسات الحديثة قوة الشبكات العصبية المتكررة في ترجمة الآلة ووصف الصور وتعرف الكلام. ومع ذلك، فيما يتعلق بمهمة التقاط البنية الزمنية في الفيديو، لا تزال هناك العديد من الأسئلة البحثية المفتوحة. تقترح الأبحاث الحالية استخدام استراتيجية بسيطة لجمع الخصائص الزمنية للأخذ في الاعتبار الجوانب الزمنية للفيديو. نوضح أن هذه الطريقة غير كافية للتعرف على الإيماءات، حيث تكون المعلومات الزمنية أكثر تمييزًا مقارنة بمهام تصنيف الفيديو العامة. نستكشف هياكل عميقة للتعرف على الإيماءات في الفيديو ونقترح هندسة شبكة عصبية قابلة للتدريب من النهاية إلى النهاية تدمج فيها التحولات الزمنية والتكرار الثنائي الاتجاه. إسهاماتنا الرئيسية ثنائية؛ أولاً، نثبت أن التكرار ضروري لهذه المهمة؛ ثانياً، نوضح أن إضافة التحولات الزمنية يؤدي إلى تحسينات كبيرة. نقيم النهج المختلفة على مجموعة بيانات مونتالبانو للتعرف على الإيماءات، حيث نحقق أفضل النتائج حتى الآن (state-of-the-art).

تجاوز التجميع الزمني: التكرار والتشابك الزمني لتمييز الإيماءات في الفيديو | أحدث الأوراق البحثية | HyperAI