RPAN: شبكة انتباه الموضع المتكررة من الطرف إلى الطرف للتعرف على الحركات في الفيديوهات
أظهرت الدراسات الحديثة فعالية الشبكات العصبية التكرارية (RNNs) في تمييز الحركات في الفيديوهات. ومع ذلك، فإن الدراسات السابقة اعتمدت بشكل رئيسي على التصنيف على مستوى الفيديو كمصدر للإشراف لتدريب الشبكات التكرارية، مما قد يمنع هذه الشبكات من تعلم الهياكل الحركية المعقدة على مدار الزمن. في هذا البحث، نقترح شبكة RPAN (شبكة الانتباه الموضعية التكرارية) لمعالجة هذه التحديات، حيث نُقدِّم آلية انتباه موضعية جديدة تُمكن الشبكة من تعلم ميزات مرتبطة بالموضع بشكل تكيفي في كل خطوة زمنية لتمييز الحركات بواسطة الشبكة التكرارية. وبشكل أكثر تحديدًا، نقدم ثلاث مساهمات رئيسية في هذا العمل. أولاً، على عكس الدراسات السابقة في تمييز الحركات المرتبطة بالموضع، فإن RPAN هي شبكة تكرارية نهائية (end-to-end) يمكنها استغلال التطورات المكانية-الزمنية المهمة لموضع الإنسان لمساعدة تمييز الحركات ضمن إطار موحد. ثانيًا، بدلًا من تعلم ميزات المفاصل البشرية الفردية بشكل منفصل، تتعلم آلية الانتباه الموضعية ميزات قوية للمكونات البشرية من خلال مشاركة جزئية لمعاملات الانتباه على المفاصل البشرية ذات الدلالة المعجمية المشتركة. ثم تُقدَّم هذه الميزات إلى طبقة تجميع المكونات البشرية لبناء تمثيل موضع مميز للغاية لنمذجة الحركات الزمنية. ثالثًا، يُعد أحد النتائج الثانوية المهمة لشبكة RPAN تقييم الموضع في الفيديوهات، والذي يمكن استخدامه لتسمية أولية للوضع في مقاطع الفيديو الحركية. تم تقييم RPAN كميًا ونوعيًا على معيارين شهيرين، وهما Sub-JHMDB وPennAction. وأظهرت النتائج التجريبية أن RPAN تتفوق على أحدث الطرق المتطورة في هذه المجموعات الصعبة.