تعلم ركوب الدراجة: اكتشاف الميزات المتسقة زمنيًا للتعرف على الإجراءات

التعميم على التغيرات الزمنية يُعد شرطًا مسبقًا للتعرف الفعّال على الحركات في الفيديوهات. وعلى الرغم من التقدم الكبير في الشبكات العصبية العميقة، يظل التحدي متمثلًا في التركيز على الحركات التمييزية قصيرة المدى في سياق الأداء العام للحركة. نعالج هذا التحدي من خلال السماح ببعض المرونة في اكتشاف السمات الفضائية-الزمنية ذات الصلة. نقدّم طريقة تُسمى "البوابات الزمنية المضغوطة والتكرارية" (SRTG)، التي تفضّل الإدخالات التي تُظهر تفاعلات متشابهة مع إمكانية التغيرات الزمنية. نُنفّذ هذه الفكرة من خلال كتلة شبكة عصبية تلافيفية (CNN) جديدة تستخدم LSTM لاستيعاب ديناميات الميزات، إلى جانب بوابة زمنية مسؤولة عن تقييم اتساق الديناميات المُكتشفة مع الميزات المُنمذجة. نُظهر تحسنًا مستمرًا عند استخدام كتل SRTG، مع زيادة ضئيلة جدًا في عدد GFLOPs. وعلى مجموعة بيانات Kinetics-700، نحقق أداءً مماثلًا لأفضل النماذج الحالية، ونتفوّق عليها في مجموعات بيانات HACS، Moments in Time، UCF-101، وHMDB-51.