HyperAIHyperAI
منذ 2 أشهر

شبكات تجميع الميزات الهرمية لتمييز الأنشطة في الفيديو

Swathikiran Sudhakaran; Sergio Escalera; Oswald Lanz
شبكات تجميع الميزات الهرمية لتمييز الأنشطة في الفيديو
الملخص

معظم طرق التعرف على الأفعال تعتمد إما على a) تجميع متأخر لخصائص CNN على مستوى الإطار باستخدام التقسيم المتوسط، أو التقسيم الأقصى، أو RNN وغيرها، أو b) التجميع المكاني-الزماني عبر الالتفافات ثلاثية الأبعاد. الطريقة الأولى تفترض الاستقلالية بين خصائص الإطارات حتى مستوى معين من التجريد ومن ثم تقوم بالتجميع على مستوى أعلى، بينما تقوم الطريقة الثانية باستخراج الخصائص المكانية-الزمانية من الإطارات المجتمعة كدمج مبكر. في هذا البحث، نستكشف الفضاء بين هذين النهجين من خلال السماح للفرعيات المميزة المجاورة بالتفاعل أثناء تطورها إلى التمثيل المستوى العالي. يحدث هذا التفاعل بين الاختلاف والتقريب في كل مستوى من المستويات الهرمية، ولديه بنية التفافية تتعلم اختيار النمط المناسب محليًا بخلاف الأعمال السابقة التي فرضت أحد هذه الأنماط عالميًا (مثل اختلاف الخصائص) كاختيار تصاميمي. نفرض أيضًا أن يكون هذا التفاعل محافظًا، مثل التعويض عن عملية الطرح المحلية للخصائص في فرع بإضافة في فرع آخر بحيث يُحافظ على جريان الخصائص الكلي. نقيم أداء مقترحنا على عدد من النماذج الموجودة، مثل TSN وTRN وECO، لإظهار مرونتها وفعاليتها في تحسين أداء التعرف على الأفعال.

شبكات تجميع الميزات الهرمية لتمييز الأنشطة في الفيديو | أحدث الأوراق البحثية | HyperAI