HyperAIHyperAI
منذ 17 أيام

I3D-LSTM: نموذج جديد للتعرف على الأفعال البشرية

{Zhenjiang Miao, Xianyuan Wang, Ruyi Zhang, Shanshan Hao}
الملخص

تمثّل التعرف على الإجراءات بالفعل موضوعًا بحثيًا مُ火热ًا في الآونة الأخيرة، حيث يهدف إلى تصنيف مختلف الإجراءات البشرية في الفيديوهات. تُعتمد الطرق الحالية السائدة عادةً على نماذج مُدرّبة مسبقًا على ImageNet كمُستخرِجات للسمات، لكن هذا ليس الخيار الأمثل لتدريب نموذج لتصنيف الفيديوهات على مجموعة بيانات ضخمة من الصور الثابتة. بالإضافة إلى ذلك، يُلاحظ أن عددًا قليلاً جدًا من الدراسات تدرك أن الشبكة العصبية التلافيفية ثلاثية الأبعاد (3D CNN) أكثر فعالية في استخلاص السمات المكانية-الزمنية من المستوى المنخفض، بينما تكون الشبكة العصبية التكرارية (RNN) أكثر ملاءمة لنمذجة تسلسلات السمات الزمنية من المستوى العالي. وعليه، تم اقتراح نموذج جديد في هذا العمل لمعالجة المشكلتين المذكورتين أعلاه. أولاً، قمنا بتدريب نموذج 3D CNN مسبقًا على مجموعة بيانات الفيديو الكبيرة لتصنيف الإجراءات (Kinetics) لتحسين عامة النموذج. ثم تم دمج وحدة الذاكرة طويلة القصيرة (LSTM) لتمثيل السمات الزمنية من المستوى العالي التي تُولّدها نموذج 3D CNN المُدرّب مسبقًا على Kinetics. أظهرت نتائج التجارب أن النموذج المُدرّب مسبقًا على Kinetics يمكنه عادةً التفوق على النموذج المُدرّب مسبقًا على ImageNet. وتمكّن الشبكة المقترحة من تحقيق أفضل أداء على مجموعة بيانات UCF-101.