HyperAIHyperAI
منذ 2 أشهر

شبكة عصبية تلافيفية أنبوبيّة (T-CNN) لاكتشاف الأفعال في الفيديوهات

Rui Hou; Chen Chen; Mubarak Shah
شبكة عصبية تلافيفية أنبوبيّة (T-CNN) لاكتشاف الأفعال في الفيديوهات
الملخص

أثبتت الشبكات العصبية العميقة قدرتها على تحقيق نتائج ممتازة في تصنيف الصور وكشف الأشياء. ومع ذلك، فإن تأثير هذه التقنية في تحليل الفيديو (مثل كشف الحركات وتعرفها) كان محدودًا بسبب تعقيد بيانات الفيديو ونقص التسميات. غالبًا ما تتكون النماذج السابقة للكشف عن الحركات في الفيديو باستخدام الشبكات العصبية التلافيفية (CNN) من خطوتين رئيسيتين: كشف اقتراحات الحركة على مستوى الإطارات وربط هذه الاقتراحات بين الإطارات. بالإضافة إلى ذلك، تستخدم هذه الأساليب إطار عمل شبكتين متوازيتين للتعامل مع الخصائص المكانية والزمانية بشكل منفصل. في هذا البحث، نقترح شبكة عميقة شاملة تُدعى شبكة التلافيف الأنبوبية (T-CNN) للكشف عن الحركات في الفيديو. يتكون التصميم المقترح من شبكة موحدة قادرة على التعرف على الحركات وتوضيح موقعها بناءً على خصائص التلافيف ثلاثية الأبعاد (3D Convolution). يتم أولاً تقسيم الفيديو إلى مقاطع ذات طول متساوٍ، ثم يتم إنشاء مجموعة من اقتراحات الأنابيب لكل مقطع بناءً على خصائص شبكة التلافيف ثلاثية الأبعاد (3D ConvNet). وأخيرًا، يتم ربط اقتراحات الأنابيب المختلفة للمقاطع باستخدام جريان الشبكة ويتم تنفيذ الكشف عن الحركات المكانية-الزمانية باستخدام هذه الاقتراحات المرتبطة. أظهرت التجارب الواسعة على عدة مجموعات بيانات فيديو أداء T-CNN المتفوق في تصنيف وتوضيح موقع الحركات سواء في مقاطع الفيديو المقصوصة أو غير المقصوصة مقارنة بأحدث الأساليب المتاحة.

شبكة عصبية تلافيفية أنبوبيّة (T-CNN) لاكتشاف الأفعال في الفيديوهات | أحدث الأوراق البحثية | HyperAI