HyperAIHyperAI

Command Palette

Search for a command to run...

إيدتيك 3D LSTM: نموذج للتنبؤ بالفيديو وما بعده

Li Fei-Fei Li-Jia Li Ming-Hsuan Yang Mingsheng Long Yunbo Wang Lu Jiang

الملخص

التعلم التنبؤي المكاني-الزمني، رغم اعتباره منذ فترة طويلة طريقة واعدة للتعلم التلقائي للسمات، نادرًا ما يُظهر فعاليته خارج نطاق توقع الفيديو المستقبلي. والسبب في ذلك يكمن في صعوبة تعلّم تمثيلات جيدة لكل من الاعتماد على الإطارات قصيرة المدى والعلاقات عالية المستوى على المدى الطويل. نقدم نموذجًا جديدًا يُدعى LSTM ثلاثي الأبعاد الإيدتيكي (E3D-LSTM)، الذي يدمج التحويلات ثلاثية الأبعاد (3D Convolutions) داخل الشبكات العصبية التكرارية (RNNs). تجعل الوحدات الثلاثية الأبعاد المدمجة في النموذج الوحدات المحلية للـ RNNs حساسة للحركة، وتمكّن خلية الذاكرة من تخزين ميزات قصيرة المدى بشكل أفضل. أما بالنسبة للعلاقات الطويلة المدى، فيُمكن للحالة الحالية للذاكرة التفاعل مع سجلاتها السابقة من خلال وحدة انتباه ذاتية مُتحكم بها ببوابة. ونُسمّي هذه آلية انتقال الذاكرة "إيدتيكيّة" لأنها قادرة على استرجاع الذاكرة المُخزّنة بكفاءة عبر علامات زمنية متعددة، حتى بعد فترات طويلة من التشويش. أولاً، قمنا بتقييم شبكة E3D-LSTM على مجموعات بيانات شائعة لتنبؤ الفيديو المستقبلي، وحققنا أداءً متقدمًا على مستوى الحد الأقصى في المجال. ثم أظهرنا أن شبكة E3D-LSTM تُظهر أيضًا أداءً متميزًا في مهام التعرف المبكر على الأنشطة، وذلك لاستنتاج ما يحدث أو ما سيحدث بعد ملاحظة عدد محدود من الإطارات في الفيديو. وتتماشى هذه المهمة جيدًا مع توقع الفيديو، نظرًا لأن نوايا الأفعال والاتجاهات تُعد عوامل حاسمة لتحقيق الأداء المتميز.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp