HyperAIHyperAI

Command Palette

Search for a command to run...

تجاوز التجميع الزمني: التكرار والتشابك الزمني لتمييز الإيماءات في الفيديو

Lionel Pigou Aäron van den Oord* Sander Dieleman* Mieke Van Herreweghe Joni Dambre

الملخص

أظهرت الدراسات الحديثة قوة الشبكات العصبية المتكررة في ترجمة الآلة ووصف الصور وتعرف الكلام. ومع ذلك، فيما يتعلق بمهمة التقاط البنية الزمنية في الفيديو، لا تزال هناك العديد من الأسئلة البحثية المفتوحة. تقترح الأبحاث الحالية استخدام استراتيجية بسيطة لجمع الخصائص الزمنية للأخذ في الاعتبار الجوانب الزمنية للفيديو. نوضح أن هذه الطريقة غير كافية للتعرف على الإيماءات، حيث تكون المعلومات الزمنية أكثر تمييزًا مقارنة بمهام تصنيف الفيديو العامة. نستكشف هياكل عميقة للتعرف على الإيماءات في الفيديو ونقترح هندسة شبكة عصبية قابلة للتدريب من النهاية إلى النهاية تدمج فيها التحولات الزمنية والتكرار الثنائي الاتجاه. إسهاماتنا الرئيسية ثنائية؛ أولاً، نثبت أن التكرار ضروري لهذه المهمة؛ ثانياً، نوضح أن إضافة التحولات الزمنية يؤدي إلى تحسينات كبيرة. نقيم النهج المختلفة على مجموعة بيانات مونتالبانو للتعرف على الإيماءات، حيث نحقق أفضل النتائج حتى الآن (state-of-the-art).


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp