HyperAIHyperAI
منذ 18 أيام

تحليل مقارن للتفكير المكاني-الزمني المستند إلى الشبكات العصبية التلافيفية في الفيديوهات

Okan Köpüklü, Fabian Herzog, Gerhard Rigoll
تحليل مقارن للتفكير المكاني-الزمني المستند إلى الشبكات العصبية التلافيفية في الفيديوهات
الملخص

فهم الإجراءات والتعبيرات اليدوية في تدفقات الفيديو يتطلب تفكيرًا زمنيًا في المحتوى المكاني من لحظات زمنية مختلفة، أي نمذجة مكانيّة-زمنيّة (ST). في هذه الورقة الاستقصائية، قمنا بتحليل مقارن لتقنيات النمذجة المكانيّة-الزمنيّة المختلفة المُستخدمة في مهام التعرف على الإجراءات والتعبيرات اليدوية. وبما أن الشبكات العصبية التلافيفية (CNN) أثبتت فعاليتها كأداة استخلاص ميزات للصور الثابتة، نطبق تقنيات النمذجة المكانيّة-الزمنيّة على الميزات المستخرجة من الصور الثابتة في لحظات زمنية مختلفة باستخدام CNN. تم تدريب جميع التقنيات بشكل متكامل (end-to-end) مع جزء استخلاص الميزات باستخدام CNN، وتم تقييمها على مجموعتين بيانات متاحتين للجمهور: مجموعة بيانات Jester ومجموعة بيانات Something-Something. تحتوي مجموعة بيانات Jester على مجموعة متنوعة من التعبيرات اليدوية الديناميكية والثابتة، بينما تحتوي مجموعة بيانات Something-Something على إجراءات تفاعل الإنسان مع الأشياء. يتميّز كلا المجموعتين بكون التصاميم المُصممة تحتاج إلى اكتشاف المحتوى الزمني الكامل للفيديو لتصنيف الإجراءات/التعبيرات بشكل صحيح. وخلافًا للتوقعات، تُظهر النتائج التجريبية أن تقنيات النمذجة المكانيّة-الزمنيّة القائمة على الشبكات العصبية التكرارية (RNN) تُعطي نتائج أضعف مقارنةً بتقنيات أخرى مثل الهياكل التلافيفية الكاملة. يُمكن الوصول إلى الكود النموذجي والنماذج المُدرّبة مسبقًا لهذا العمل بشكل عام.

تحليل مقارن للتفكير المكاني-الزمني المستند إلى الشبكات العصبية التلافيفية في الفيديوهات | أحدث الأوراق البحثية | HyperAI