DirecFormer: نهج الانتباه الموجه في Transformer للتعرف المتماسك على الحركات

أصبح التعرف على الإجراءات البشرية أحد الموضوعات البحثية الشائعة في مجتمع رؤية الحاسوب مؤخرًا. تم تقديم العديد من الطرق القائمة على الشبكات العصبية العميقة ثلاثية الأبعاد (3D-CNN) للتعامل مع البعدين المكاني والزمني في مهمة التعرف على الإجراءات في الفيديو، وحققت نتائج تنافسية. ومع ذلك، تعاني هذه الطرق من قيود جوهرية مثل ضعف المرونة والقدرة على التعميم، مثل: كيف تؤثر الترتيب الزمني لإطارات الفيديو على نتائج التعرف؟ تقدم هذه الدراسة إطارًا جديدًا يعتمد على نموذج التحويل (Transformer) يُسمى "الانتباه الموجه" (DirecFormer) بأسلوب منتهٍ من البداية إلى النهاية، لتحسين التعرف على الإجراءات بشكل موثوق. تتخذ الطريقة منظورًا بسيطًا ولكن مبتكرًا للنهج القائم على التحويل لفهم الترتيب الصحيح للإجراءات المتسلسلة. وبالتالي، تتمثل إسهامات هذا العمل في ثلاثة جوانب رئيسية: أولاً، نُدخل مسألة التعلم الزمني المرتّب إلى مشكلة التعرف على الإجراءات. ثانيًا، نُقدّم آلية جديدة تُسمى "الانتباه الموجه" لفهم وتوجيه الانتباه نحو الإجراءات البشرية بالترتيب الصحيح. ثالثًا، نُضيف مفهوم الاعتماد الشرطي في نمذجة تسلسلات الإجراءات، والذي يشمل الترتيب والفئات. تحقق الطريقة المقترحة نتائج متقدمة جدًا (SOTA) بشكل متسق مقارنة بالطرق الحديثة للتعرف على الإجراءات، على ثلاث معايير قياسية كبيرة، وهي: Jester وKinetics-400 وSomething-Something-V2.