PA3D: آلة التعرف على الفيديو ثلاثية الأبعاد القائمة على الموضع والعمل

أظهرت الدراسات الحديثة نجاح استخدام الشبكات العصبية التلافيفية الثلاثية الأبعاد (3D CNNs) في التعرف على الإجراءات في الفيديو. ومع ذلك، تُبنى معظم النماذج الثلاثية الأبعاد على تدفقات الصور الملونة (RGB) وتدفقات البصريات (optical flow)، والتي قد لا تستغل بالكامل الديناميات الوضعية (pose dynamics)، وهي مؤشر مهم في نمذجة الإجراءات البشرية. ولسد هذه الفجوة، نقترح نموذجًا موجزًا يُسمى آلة الإجراء والوضعية الثلاثية الأبعاد (PA3D)، التي يمكنها ترميز العديد من أشكال الوضعية ضمن إطار ثلاثي الأبعاد موحد، وبالتالي التعلم التماثلي-الزماني للتمثيلات الوضعية للاعتراف بالإجراءات. وبشكل أكثر تحديدًا، نقدم عملية تقوس وضعية زمنية جديدة لدمج الوضعيات المكانية عبر الإطارات. على عكس التقوس الزمني التقليدي، يمكن لعملية التقوس لدينا التعلم الصريح للحركات الوضعية المميزة التي تساعد في التعرف على الإجراءات البشرية. أظهرت التجارب الواسعة على ثلاث معايير شهيرة (أي JHMDB، HMDB، وCharades) أن PA3D يتفوق على الأساليب الحديثة القائمة على الوضعية. علاوةً على ذلك، يُعد PA3D مكملًا قويًا للشبكات العصبية الثلاثية الأبعاد الحديثة، مثل I3D. حيث حقق الدمج متعدد التدفقات أداءً متقدمًا في جميع المجموعات المُختبرة.