استماع لمشاهدة: التعرف على الإجراءات من خلال معاينة الصوت

في مواجهة الفيض الهائل من البيانات المرئية، أصبحت النماذج الحالية الباهظة التكلفة التي تعتمد على التصنيف على مستوى القطع (clip-level) أكثر تقييدًا من حيث الممارسة. نقترح إطارًا فعّالًا للتعرف على الحركات في الفيديوهات غير المُعدّلة، يُستخدم الصوت كآلية مُقدّمة (preview mechanism) للتخلص من التكرار البصري القصير الأمد والطويل الأمد. أولاً، نصمم إطارًا يُسمى ImgAud2Vid، يُولّد خصائص على مستوى القطع من خلال استخلاص معلومات من وسائط أخف—إطارًا واحدًا وصوته المرافق—مما يقلّل من التكرار الزمني القصير، وبالتالي يُحسّن كفاءة التعرف على مستوى القطع. ثانيًا، بالاعتماد على إطار ImgAud2Vid، نقترح بشكل إضافي ImgAud-Skimming، وهو شبكة انتباه مبنية على الذاكرة طويلة القصيرة الأمد (attention-based long short-term memory network)، تختار تدريجيًا اللحظات المفيدة في الفيديوهات غير المُعدّلة، مما يقلّل من التكرار الزمني الطويل الأمد، وبالتالي يُعزّز كفاءة التعرف على مستوى الفيديو. أظهرت تجارب واسعة على أربع مجموعات بيانات للتعرف على الحركات أن منهجنا يحقق الأداء الأفضل في مجال الدقة التعرفية والسرعة معًا.