EAN: شبكة متعددة التكيف مع الحدث للتعرف المحسّن على الإجراءات

نموذج المعلومات المكانية-الزمنية بكفاءة في الفيديوهات أمر بالغ الأهمية للتعريف بالإجراءات. لتحقيق هذا الهدف، تُستخدم غالبًا في الطرق الحديثة للحالة الراهنة عامل التباعد (convolution) ووحدات التفاعل الكثيفة مثل كتل غير المحلية (non-local blocks). ومع ذلك، فإن هذه الطرق لا تستطيع تمثيل الأحداث المتنوعة في الفيديوهات بدقة. من ناحية، فإن التباعدات المستخدمة تمتلك مقاييس ثابتة، مما يجعلها تعاني من صعوبة في التعامل مع الأحداث التي تختلف في الحجم. ومن ناحية أخرى، فإن نموذج التفاعل الكثيف يحقق أداءً غير مثالي، حيث تُضيف الأجزاء غير المرتبطة بالإجراء ضوضاء إضافية للتنبؤ النهائي. في هذه الورقة، نقترح إطارًا موحدًا للتعريف بالإجراءات يدرس الطبيعة الديناميكية لمحتوى الفيديو من خلال اعتماد التصميمات التالية: أولاً، عند استخلاص الإشارات المحلية، نُولِّد نوى مكانية-زمنية ذات مقاييس ديناميكية، بهدف التكيف التلقائي مع الأحداث المتنوعة. ثانيًا، لجمع هذه الإشارات بدقة في تمثيل فيديو عالمي، نقترح استغلال التفاعلات فقط بين عدد محدود من الكائنات المُحددة في الخلفية من خلال نموذج Transformer، مما يؤدي إلى نموذج نادر (sparse paradigm). ونسمي الإطار المقترح بشبكة التكيف حسب الحدث (Event Adaptive Network - EAN)، نظرًا لأن كلا التصميمين الأساسيين يتكيفان مع محتوى الفيديو المُدخل. ولاستغلال الحركات القصيرة المدى داخل المقاطع المحلية، نقترح وحدة جديدة وفعالة تُسمى "رمز الحركة المُخفي" (Latent Motion Code - LMC)، مما يعزز أداء الإطار بشكل إضافي. وقد أثبتت التجارب الواسعة على عدة مجموعات بيانات فيديو كبيرة، مثل Something-to-Something V1&V2، وKinetics، وDiving48، أن نماذجنا تحقق أداءً منافسًا أو من أفضل النماذج الحالية بتكاليف منخفضة من حيث عدد العمليات الحسابية (FLOPs). يمكن الوصول إلى الكود من خلال: https://github.com/tianyuan168326/EAN-Pytorch.