HyperAIHyperAI

Command Palette

Search for a command to run...

فقط أضف π\piπ! تحويلات الفيديو المستوحاة من الوضعية لفهم أنشطة الحياة اليومية

Dominick Reilly Srijan Das

الملخص

أصبحت متحولات الفيديو المعيار الفعلي للاعتراف بحركات الإنسان، ومع ذلك لا يزال اعتمادها الحصري على نمط RGB يحد من استخدامها في مجالات معينة. أحد هذه المجالات هو أنشطة الحياة اليومية (ADL)، حيث لا يكون RGB بمفرده كافيًا لتمييز الأنشطة المشابهة بصريًا أو الأنشطة التي يتم رصدها من نقاط نظر متعددة. لتسهيل تبني متحولات الفيديو في مجال ADL، نفترض أن إضافة معلومات الوضع البشري إلى RGB، والتي تُعرف بحساسيتها للحركة الدقيقة ونقاط النظر المتعددة، هي ضرورية. نتيجة لذلك، نقدم أول متحول فيديو مستند إلى الوضع: PI-ViT (أو π\piπ-ViT)، وهو نهج جديد يعزز تمثيلات RGB التي تتعلمها متحولات الفيديو بمعلومات وضع ثنائية الأبعاد وثلاثية الأبعاد. العناصر الأساسية لـ π\piπ-ViT هي وحدتان قابلتان للإدراج، وهما وحدة استنباط الهيكل العظمي ثنائي الأبعاد (2D Skeleton Induction Module) وأخرى ثلاثية الأبعاد (3D Skeleton Induction Module)، اللتان تكونان مسؤولة عن إدخال المعلومات ثنائية وثلاثية الأبعاد للوضع في تمثيلات RGB. تعمل هذه الوحدات من خلال تنفيذ مهمات فرعية مرتبطة بالوضع، وهي خيار تصميم يسمح لمتحول π\piπ-ViT بإسقاط الوحدات أثناء الاستدلال. بشكل ملفت، حقق π\piπ-ViT أفضل أداء حاليًا على ثلاثة من أشهر مجموعات بيانات ADL، والتي تشمل كلًا من بيانات RGB-D الحقيقية والكبيرة الحجم، دون الحاجة إلى معلومات الوضع أو زيادة العبء الحاسوبي أثناء الاستدلال.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp