HyperAIHyperAI

Command Palette

Search for a command to run...

VTP: محول حجمي لتقدير الوضع ثلاثي الأبعاد متعدد الأشخاص من عدة زوايا

Yuxing Chen Renshu Gu Ouhan Huang Gangyong Jia

الملخص

يقدم هذا البحث إطار عمل VTP (مُقدّر موضع الإنسان ثلاثي الأبعاد باستخدام المحولات الحجمية)، وهو أول إطار عمل يعتمد على المحولات الحجمية ثلاثية الأبعاد لتقدير موضع الإنسان ثلاثي الأبعاد في مشاهد متعددة وله أشخاص متعددين. يقوم VTP بتجميع الميزات من النقاط المفتاحية ثنائية الأبعاد في جميع زوايا الكاميرات، ويعمل على تعلّم العلاقات المكانية داخل الفضاء الحجمي الثلاثي الأبعاد بطريقة نهائية (end-to-end). تمر الميزات الثلاثية الأبعاد المجمعة عبر عمليات تباين ثلاثية الأبعاد (3D convolutions) قبل أن تُسطّح إلى تمثيلات تسلسلية (sequential embeddings) وتُقدّم إلى محول (transformer). تم تصميم هيكل تكراري (residual structure) لتحسين الأداء بشكل إضافي. بالإضافة إلى ذلك، تم استخدام انتباه سينكورن النادر (sparse Sinkhorn attention) لتقليل تكلفة الذاكرة، وهي عقبة رئيسية في التمثيلات الحجمية، مع الحفاظ على أداء ممتاز. يتم تجميع مخرجات المحول مجددًا مع ميزات التباين الثلاثية الأبعاد باستخدام هيكل تكراري. يدمج الإطار المُقترح VTP الأداء العالي للمحولات مع التمثيلات الحجمية، مما يجعله بديلًا جيدًا لخلفيات التباين التقليدية. أظهرت التجارب على معايير Shelf وCampus وCMU Panoptic نتائج واعدة من حيث خطأ الموضع المتوسط لكل مفصل (MPJPE) ونسبة الأجزاء المقدرة بشكل صحيح (PCP). ستكون الشفرة المصدرية للنظام متاحة قريبًا.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp