الشبكات الديناميكية للصور للتعرف على الحركات

نُقدِّم مفهوم الصورة الديناميكية، وهو تمثيل مكثف جديد للفيديوهات، مفيد لتحليل الفيديوهات خاصة عند استخدام الشبكات العصبية التلافيفية (CNN). تعتمد الصورة الديناميكية على مفهوم التجميع حسب الرتبة (rank pooling)، وتُستخلص من خلال معاملات آلة الترتيب التي تُشَكِّل التطور الزمني للإطارات في الفيديو. تُنتج الصور الديناميكية عن طريق تطبيق التجميع حسب الرتبة مباشرة على القيم الصورية الأولية (البيكسلات) للفيديو، مما يُنتج صورة RGB واحدة لكل فيديو. يُعد هذا المفهوم بسيطًا ولكن قويًا، لأنه يُمكّن من استخدام النماذج الحالية من الشبكات العصبية التلافيفية مباشرة على بيانات الفيديو مع التخصيص الدقيق (fine-tuning). نقدّم مشغلًا مقاربًا فعّالًا وسريعًا للتجميع حسب الرتبة، يُسرّع العمليات بمقدار أضعاف مقارنةً بالطريقة الأصلية. ويُمكّننا هذا الطبقة الجديدة من الشبكة العصبية التلافيفية القائمة على التجميع المقارب من تعميم الصور الديناميكية إلى خرائط الميزات الديناميكية، ونُظهر قوة تمثيلاتنا الجديدة على المعايير القياسية في تصنيف الحركات، حيث نحقق أداءً يُصنف ضمن الأفضل عالميًا.