فقط أضف $\pi$! تحويلات الفيديو المستوحاة من الوضعية لفهم أنشطة الحياة اليومية

أصبحت متحولات الفيديو المعيار الفعلي للاعتراف بحركات الإنسان، ومع ذلك لا يزال اعتمادها الحصري على نمط RGB يحد من استخدامها في مجالات معينة. أحد هذه المجالات هو أنشطة الحياة اليومية (ADL)، حيث لا يكون RGB بمفرده كافيًا لتمييز الأنشطة المشابهة بصريًا أو الأنشطة التي يتم رصدها من نقاط نظر متعددة. لتسهيل تبني متحولات الفيديو في مجال ADL، نفترض أن إضافة معلومات الوضع البشري إلى RGB، والتي تُعرف بحساسيتها للحركة الدقيقة ونقاط النظر المتعددة، هي ضرورية. نتيجة لذلك، نقدم أول متحول فيديو مستند إلى الوضع: PI-ViT (أو $\pi$-ViT)، وهو نهج جديد يعزز تمثيلات RGB التي تتعلمها متحولات الفيديو بمعلومات وضع ثنائية الأبعاد وثلاثية الأبعاد. العناصر الأساسية لـ $\pi$-ViT هي وحدتان قابلتان للإدراج، وهما وحدة استنباط الهيكل العظمي ثنائي الأبعاد (2D Skeleton Induction Module) وأخرى ثلاثية الأبعاد (3D Skeleton Induction Module)، اللتان تكونان مسؤولة عن إدخال المعلومات ثنائية وثلاثية الأبعاد للوضع في تمثيلات RGB. تعمل هذه الوحدات من خلال تنفيذ مهمات فرعية مرتبطة بالوضع، وهي خيار تصميم يسمح لمتحول $\pi$-ViT بإسقاط الوحدات أثناء الاستدلال. بشكل ملفت، حقق $\pi$-ViT أفضل أداء حاليًا على ثلاثة من أشهر مجموعات بيانات ADL، والتي تشمل كلًا من بيانات RGB-D الحقيقية والكبيرة الحجم، دون الحاجة إلى معلومات الوضع أو زيادة العبء الحاسوبي أثناء الاستدلال.