HyperAIHyperAI

Command Palette

Search for a command to run...

XFormer: التقاط ثلاثي الأبعاد للجسم من منظور واحد بسرعة ودقة

Lihui Qian Xintong Han Faqiang Wang Hongyu Liu Haoye Dong Zhiwen Li Huawei Wei Zhe Lin Cheng-Bin Jin

الملخص

نقدّم XFormer، وهي طريقة جديدة لاستخراج الشكل البشري والحركة، تحقق أداءً في الوقت الفعلي على وحدات المعالجة المركزية المستهلكة، باستخدام صور مفردة فقط كمدخلات. يتكوّن المعمارية المقترحة من فرعين: فرع نقاط المفتاح (keypoint branch) الذي يُقدّر رؤوس الشكل البشري ثلاثي الأبعاد بناءً على نقاط المفتاح ثنائية الأبعاد، وفرع الصورة (image branch) الذي يُقدّم التنبؤات مباشرةً من ميزات صور RGB. وتقع في قلب طريقتنا كتلة تحويلية عبر الوسائط (cross-modal transformer block)، التي تسمح بتدفق المعلومات بين هذين الفرعين من خلال نمذجة الانتباه بين إحداثيات نقاط المفتاح ثنائية الأبعاد وسمات الفضاء في الصورة. وقد صُمّمت المعمارية بذكاء، ما يمكّننا من التدريب على أنواع مختلفة من المجموعات البيانات، بما في ذلك الصور ذات التسميات ثنائية وثلاثية الأبعاد، والصور ذات التسميات الوهمية ثلاثية الأبعاد (3D pseudo labels)، وبيانات التقاط الحركة التي لا ترتبط بها صور. وهذا يُحسّن بشكل فعّال من دقة النظام وقدرته على التعميم. وبنيت على هيكل خلفي خفيف الوزن (MobileNetV3)، تعمل طريقتنا بسرعة فائقة (أكثر من 30 إطارًا في الثانية على نواة معالجة مركزية واحدة) مع الحفاظ على دقة تنافسية. علاوةً على ذلك، وباستخدام هيكل خلفي HRNet، تُقدّم XFormer أداءً من الطراز الرائد (state-of-the-art) على مجموعتي بيانات Human3.6 و3DPW.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp