HyperAIHyperAI

Command Palette

Search for a command to run...

I3D-LSTM: نموذج جديد للتعرف على الأفعال البشرية

Zhenjiang Miao Xianyuan Wang Ruyi Zhang Shanshan Hao

الملخص

تمثّل التعرف على الإجراءات بالفعل موضوعًا بحثيًا مُ火热ًا في الآونة الأخيرة، حيث يهدف إلى تصنيف مختلف الإجراءات البشرية في الفيديوهات. تُعتمد الطرق الحالية السائدة عادةً على نماذج مُدرّبة مسبقًا على ImageNet كمُستخرِجات للسمات، لكن هذا ليس الخيار الأمثل لتدريب نموذج لتصنيف الفيديوهات على مجموعة بيانات ضخمة من الصور الثابتة. بالإضافة إلى ذلك، يُلاحظ أن عددًا قليلاً جدًا من الدراسات تدرك أن الشبكة العصبية التلافيفية ثلاثية الأبعاد (3D CNN) أكثر فعالية في استخلاص السمات المكانية-الزمنية من المستوى المنخفض، بينما تكون الشبكة العصبية التكرارية (RNN) أكثر ملاءمة لنمذجة تسلسلات السمات الزمنية من المستوى العالي. وعليه، تم اقتراح نموذج جديد في هذا العمل لمعالجة المشكلتين المذكورتين أعلاه. أولاً، قمنا بتدريب نموذج 3D CNN مسبقًا على مجموعة بيانات الفيديو الكبيرة لتصنيف الإجراءات (Kinetics) لتحسين عامة النموذج. ثم تم دمج وحدة الذاكرة طويلة القصيرة (LSTM) لتمثيل السمات الزمنية من المستوى العالي التي تُولّدها نموذج 3D CNN المُدرّب مسبقًا على Kinetics. أظهرت نتائج التجارب أن النموذج المُدرّب مسبقًا على Kinetics يمكنه عادةً التفوق على النموذج المُدرّب مسبقًا على ImageNet. وتمكّن الشبكة المقترحة من تحقيق أفضل أداء على مجموعة بيانات UCF-101.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
I3D-LSTM: نموذج جديد للتعرف على الأفعال البشرية | مستندات | HyperAI