HyperAIHyperAI

Command Palette

Search for a command to run...

تحليل مقارن للتفكير المكاني-الزمني المستند إلى الشبكات العصبية التلافيفية في الفيديوهات

Okan Köpüklü Fabian Herzog Gerhard Rigoll

الملخص

فهم الإجراءات والتعبيرات اليدوية في تدفقات الفيديو يتطلب تفكيرًا زمنيًا في المحتوى المكاني من لحظات زمنية مختلفة، أي نمذجة مكانيّة-زمنيّة (ST). في هذه الورقة الاستقصائية، قمنا بتحليل مقارن لتقنيات النمذجة المكانيّة-الزمنيّة المختلفة المُستخدمة في مهام التعرف على الإجراءات والتعبيرات اليدوية. وبما أن الشبكات العصبية التلافيفية (CNN) أثبتت فعاليتها كأداة استخلاص ميزات للصور الثابتة، نطبق تقنيات النمذجة المكانيّة-الزمنيّة على الميزات المستخرجة من الصور الثابتة في لحظات زمنية مختلفة باستخدام CNN. تم تدريب جميع التقنيات بشكل متكامل (end-to-end) مع جزء استخلاص الميزات باستخدام CNN، وتم تقييمها على مجموعتين بيانات متاحتين للجمهور: مجموعة بيانات Jester ومجموعة بيانات Something-Something. تحتوي مجموعة بيانات Jester على مجموعة متنوعة من التعبيرات اليدوية الديناميكية والثابتة، بينما تحتوي مجموعة بيانات Something-Something على إجراءات تفاعل الإنسان مع الأشياء. يتميّز كلا المجموعتين بكون التصاميم المُصممة تحتاج إلى اكتشاف المحتوى الزمني الكامل للفيديو لتصنيف الإجراءات/التعبيرات بشكل صحيح. وخلافًا للتوقعات، تُظهر النتائج التجريبية أن تقنيات النمذجة المكانيّة-الزمنيّة القائمة على الشبكات العصبية التكرارية (RNN) تُعطي نتائج أضعف مقارنةً بتقنيات أخرى مثل الهياكل التلافيفية الكاملة. يُمكن الوصول إلى الكود النموذجي والنماذج المُدرّبة مسبقًا لهذا العمل بشكل عام.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
تحليل مقارن للتفكير المكاني-الزمني المستند إلى الشبكات العصبية التلافيفية في الفيديوهات | مستندات | HyperAI