DMC-Net: توليد مؤشرات حركة تمييزية للاعتراف السريع بالأعمال في الفيديو المضغوط

أثبت الحركة أنها مفيدة لفهم الفيديو، حيث يتم تمثيل الحركة عادةً بالتدفق البصري (optical flow). ومع ذلك، فإن حساب التدفق من إطارات الفيديو يستغرق وقتًا طويلًا جدًا. في الأعمال الحديثة، يتم الاستفادة مباشرة من متجهات الحركة والبقايا المتاحة بسهولة في الفيديو المضغوط لتمثيل الحركة دون أي تكلفة. بينما يتجنب هذا حساب التدفق، فإنه أيضًا يؤثر على الدقة لأن متجهات الحركة تكون ضوضائية ولديها دقة منخفضة بشكل كبير، مما يجعلها تمثيلًا أقل تمييزًا للحركة. لحل هذه المشكلات، نقترح شبكة مولدة خفيفة الوزن تقلل الضوضاء في متجهات الحركة وتلتقط تفاصيل الحركة الدقيقة، مما يحقق تمثيلًا أكثر تمييزًا لمحددات الحركة (Discriminative Motion Cue - DMC). بما أن التدفق البصري هو تمثيل أكثر دقة للحركة، فقد قمنا بتدريب مولد DMC على تقريب التدفق باستخدام خسارة إعادة البناء وخسارة التنافر التوليدي (generative adversarial loss)، مع مهمة تصنيف الأنشطة اللاحقة. أظهرت التقييمات الواسعة على ثلاثة مقاييس للاعتراف بالأنشطة (HMDB-51 وUCF-101 وجزء من Kinetics) فعالية طريقتنا. يتكون نظامنا الكامل، الذي يشمل المولد والمصنف، من DMC-Net والذي يصل إلى دقة عالية قريبة من تلك التي يتم الحصول عليها باستخدام التدفق البصري ويعمل بمعدل أسرع بمقدار رتبتين من استخدام التدفق البصري عند وقت الاستدلال.