HyperAIHyperAI

Command Palette

Search for a command to run...

شبكة عصبية تلافيفية أنبوبيّة (T-CNN) لاكتشاف الأفعال في الفيديوهات

Rui Hou Chen Chen Mubarak Shah

الملخص

أثبتت الشبكات العصبية العميقة قدرتها على تحقيق نتائج ممتازة في تصنيف الصور وكشف الأشياء. ومع ذلك، فإن تأثير هذه التقنية في تحليل الفيديو (مثل كشف الحركات وتعرفها) كان محدودًا بسبب تعقيد بيانات الفيديو ونقص التسميات. غالبًا ما تتكون النماذج السابقة للكشف عن الحركات في الفيديو باستخدام الشبكات العصبية التلافيفية (CNN) من خطوتين رئيسيتين: كشف اقتراحات الحركة على مستوى الإطارات وربط هذه الاقتراحات بين الإطارات. بالإضافة إلى ذلك، تستخدم هذه الأساليب إطار عمل شبكتين متوازيتين للتعامل مع الخصائص المكانية والزمانية بشكل منفصل. في هذا البحث، نقترح شبكة عميقة شاملة تُدعى شبكة التلافيف الأنبوبية (T-CNN) للكشف عن الحركات في الفيديو. يتكون التصميم المقترح من شبكة موحدة قادرة على التعرف على الحركات وتوضيح موقعها بناءً على خصائص التلافيف ثلاثية الأبعاد (3D Convolution). يتم أولاً تقسيم الفيديو إلى مقاطع ذات طول متساوٍ، ثم يتم إنشاء مجموعة من اقتراحات الأنابيب لكل مقطع بناءً على خصائص شبكة التلافيف ثلاثية الأبعاد (3D ConvNet). وأخيرًا، يتم ربط اقتراحات الأنابيب المختلفة للمقاطع باستخدام جريان الشبكة ويتم تنفيذ الكشف عن الحركات المكانية-الزمانية باستخدام هذه الاقتراحات المرتبطة. أظهرت التجارب الواسعة على عدة مجموعات بيانات فيديو أداء T-CNN المتفوق في تصنيف وتوضيح موقع الحركات سواء في مقاطع الفيديو المقصوصة أو غير المقصوصة مقارنة بأحدث الأساليب المتاحة.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
شبكة عصبية تلافيفية أنبوبيّة (T-CNN) لاكتشاف الأفعال في الفيديوهات | مستندات | HyperAI