HyperAIHyperAI
منذ 11 أيام

PDAN: شبكة انتباه مُتعددة المُضاعفات ذات هرمية للكشف عن الإجراءات

{Francois Bremond, Gianpiero Francesca, Lorenzo Garattoni, Luca Minciullo, Srijan Das, Rui Dai}
PDAN: شبكة انتباه مُتعددة المُضاعفات ذات هرمية للكشف عن الإجراءات
الملخص

معالجة المعلومات الزمنية الطويلة والمعقدة تمثل تحديًا مهمًا في مهام اكتشاف الحركات. ويُفاقم هذا التحدي وجود الحركات الموزعة بكثافة في مقاطع الفيديو غير المُقَصَّة. وتفشل الطرق السابقة لاكتشاف الحركات في اختيار المعلومات الزمنية الأساسية في مقاطع الفيديو الطويلة. ولحل هذه المشكلة، نقدّم طبقة الانتباه المُتَوَسِّعَة (Dilated Attention Layer - DAL). مقارنةً بالطبقة الزمنية المتقطعة السابقة، تقوم DAL بتوزيع أوزان انتباه على الإطارات المحلية داخل النواة، مما يمكّنها من تعلُّم تمثيل محلي أفضل عبر الزمن. بالإضافة إلى ذلك، نقدّم شبكة الانتباه المُتَوَسِّعَة الهرمية (Pyramid Dilated Attention Network - PDAN)، التي تُبنى على أساس DAL. وبفضل استخدام عدة طبقات DAL ب معدلات تمدد مختلفة، يمكن لـ PDAN نمذجة العلاقات الزمنية القصيرة والطويلة في آنٍ واحد، من خلال التركيز على المقاطع المحلية على مستويات حقول استقبال زمنية منخفضة وعالية. ويُمكّن هذا الخاصية PDAN من التعامل مع العلاقات الزمنية المعقدة بين مختلف حالات الحركات في مقاطع الفيديو الطويلة غير المُقَصَّة. ولتأكيد فعالية ومتانة طريقة العمل هذه، قمنا بتقييمها على ثلاث مجموعات بيانات مُعلَّمة بكثافة وتحتوي على علامات متعددة: MultiTHUMOS وCharades ومتناهية التوسع من Toyota Smarthome (TSU). وقد أظهرت PDAN تفوقها على الطرق الرائدة السابقة في جميع هذه المجموعات.