VTP: محول حجمي لتقدير الوضع ثلاثي الأبعاد متعدد الأشخاص من عدة زوايا

يقدم هذا البحث إطار عمل VTP (مُقدّر موضع الإنسان ثلاثي الأبعاد باستخدام المحولات الحجمية)، وهو أول إطار عمل يعتمد على المحولات الحجمية ثلاثية الأبعاد لتقدير موضع الإنسان ثلاثي الأبعاد في مشاهد متعددة وله أشخاص متعددين. يقوم VTP بتجميع الميزات من النقاط المفتاحية ثنائية الأبعاد في جميع زوايا الكاميرات، ويعمل على تعلّم العلاقات المكانية داخل الفضاء الحجمي الثلاثي الأبعاد بطريقة نهائية (end-to-end). تمر الميزات الثلاثية الأبعاد المجمعة عبر عمليات تباين ثلاثية الأبعاد (3D convolutions) قبل أن تُسطّح إلى تمثيلات تسلسلية (sequential embeddings) وتُقدّم إلى محول (transformer). تم تصميم هيكل تكراري (residual structure) لتحسين الأداء بشكل إضافي. بالإضافة إلى ذلك، تم استخدام انتباه سينكورن النادر (sparse Sinkhorn attention) لتقليل تكلفة الذاكرة، وهي عقبة رئيسية في التمثيلات الحجمية، مع الحفاظ على أداء ممتاز. يتم تجميع مخرجات المحول مجددًا مع ميزات التباين الثلاثية الأبعاد باستخدام هيكل تكراري. يدمج الإطار المُقترح VTP الأداء العالي للمحولات مع التمثيلات الحجمية، مما يجعله بديلًا جيدًا لخلفيات التباين التقليدية. أظهرت التجارب على معايير Shelf وCampus وCMU Panoptic نتائج واعدة من حيث خطأ الموضع المتوسط لكل مفصل (MPJPE) ونسبة الأجزاء المقدرة بشكل صحيح (PCP). ستكون الشفرة المصدرية للنظام متاحة قريبًا.