التعلم المرتبط بالحركة للإيقاع البصري لتصنيف الإجراءات القائمة على الفيديو

يُعدّ "الإيقاع البصري للعمل" مؤشرًا يُميّز الديناميكية والمقاييس الزمنية للعمل البشري، وهو ما يُسهم بشكل كبير في التمييز بين الأفعال البشرية التي تتشابه بشكل كبير من حيث الديناميكية البصرية والملامح المرئية. في الطرق السابقة، تم التقاط الإيقاع البصري إما عبر أخذ عينات من الفيديوهات الخام بسرعات متعددة، مما يتطلب شبكة متعددة الطبقات مكلفة للتعامل مع كل سرعة، أو عبر أخذ عينات هرمية من ميزات النموذج الأساسي (backbone)، والتي تعتمد بشكل كبير على الميزات عالية المستوى، وبالتالي تفوت الديناميكية الزمنية الدقيقة. في هذا العمل، نقترح وحدة الترابط الزمني (Temporal Correlation Module - TCM)، التي يمكن دمجها بسهولة في النماذج الأساسية الحالية لتمييز الأفعال بطريقة "تُركب وتُستخدم فورًا"، بهدف استخلاص إيقاع العمل البصري من ميزات النموذج الأساسية منخفضة المستوى في طبقة واحدة بشكل ملحوظ. وبشكل خاص، تتألف وحدة TCM من مكوّنين رئيسيين: وحدة الديناميكية الزمنية متعددة المقاييس (Multi-scale Temporal Dynamics Module - MTDM)، ووحدة الانتباه الزمني (Temporal Attention Module - TAM). تُطبّق MTDM عملية الترابط لتعلم الديناميكية الزمنية الدقيقة على مستوى كل بكسل، سواء بالنسبة للإيقاع السريع أو البطيء. أما TAM، فهي تُركّز بشكل تكيفي على الميزات التعبيرية وتحجب الميزات غير الضرورية من خلال تحليل المعلومات الشاملة عبر مختلف الإيقاعات. وقد أظهرت تجارب واسعة أُجريت على عدة معايير لتمييز الأفعال، مثل Something-Something V1 & V2، Kinetics-400، UCF-101، وHMDB-51، أن وحدة TCM المقترحة فعّالة جدًا في تحسين أداء النماذج الحالية لتمييز الأفعال القائمة على الفيديو بفارق كبير. وتم إتاحة الكود المصدري بشكل عام على الرابط التالي: https://github.com/yzfly/TCM.