HyperAIHyperAI

Command Palette

Search for a command to run...

تحليل الميزات متعددة الوسائط العميقة لتحديد الأفعال في مقاطع الفيديو RGB+D

Shahroudy Amir Ng Tian-Tsong Gong Yihong Wang Gang

الملخص

تم استكشاف التعرف على الحركات باستخدام وسيلة واحدة، سواء من خلال تسلسلات الصور الملونة (RGB) أو التسلسلات العميقة (Depth)، بشكل واسع في الآونة الأخيرة. ومن المقبول عمومًا أن لكلٍ من هاتين الوسيلتين مزايا وقيود مختلفة فيما يتعلق بمهام التعرف على الحركات. وبالتالي، فإن تحليل مقاطع الفيديو المدمجة (RGB+D) يمكن أن يساعدنا على دراسة الخصائص المكملة لهاتين النوعين من الوسائط بشكل أفضل، وبالتالي تحقيق أداءً أعلى. في هذه الورقة، نقترح شبكة جديدة تعتمد على مُشفّر تلقائي عميق (Deep Autoencoder) لتحليل الميزات المشتركة والخاصة، بهدف فصل الإشارات متعددة الوسائط المدخلة إلى هرمٍ من المكونات. علاوةً على ذلك، استنادًا إلى البنية المميزة للميزات، نقترح آلة تعلّم مبنية على نمط التفرع الهيكلي (Structured Sparsity Learning Machine)، والتي تستخدم القيم المختلطة (Mixed Norms) لتطبيق عملية الت régularization داخل المكونات، وتحديد المجموعة بينها، بهدف تحسين الأداء في التصنيف. أظهرت نتائج التجارب لدينا فعالية إطارنا التحليلي للمسارات المتقاطعة بين الوسائط، حيث تم تحقيق دقة متفوقة على مستوى الحالة الحالية (State-of-the-Art) في تصنيف الحركات على خمسة مجموعات معيارية صعبة.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp