HyperAIHyperAI
منذ 17 أيام

محول دمجه متعدد الأبعاد والزمني التكيفي لتقدير موضع الإنسان ثلاثي الأبعاد

Hui Shuai, Lele Wu, Qingshan Liu
محول دمجه متعدد الأبعاد والزمني التكيفي لتقدير موضع الإنسان ثلاثي الأبعاد
الملخص

يُقدّم هذا البحث إطارًا موحّدًا يُسمّى "مُحول الدمج متعدد الرؤى والزمني" (MTF-Transformer) قادرًا على التعامل التكيّفي مع عدد متغير من الرؤى وطول الفيديو دون الحاجة إلى معايرة الكاميرات في مسألة تقدير وضعية الإنسان ثلاثية الأبعاد (HPE). يتكون هذا الإطار من ثلاث وحدات رئيسية: مستخرج الميزات (Feature Extractor)، ومحول الدمج متعدد الرؤى (MFT)، ومحول الدمج الزمني (TFT). يُقدّم مستخرج الميزات تقديرًا لوضعية الصورة الثنائية (2D pose) من كل صورة، ثم يُدمج التقديرات بناءً على مستوى الثقة. ويُوفّر هذا المستخرج تمثيلًا مركّزًا على الوضعية، مما يجعل الوحدات اللاحقة خفيفة من حيث الحسابات. يدمج مُحول الدمج متعدد الرؤى (MFT) ميزات عدد متغير من الرؤى باستخدام كتلة انتباه نسبي جديد (Relative-Attention block)، حيث يقيّم تلقائيًا العلاقة النسبية الضمنية بين كل زوج من الرؤى، ويُعيد بناء ميزات أكثر إفادة. أما مُحول الدمج الزمني (TFT)، فيجمع الميزات عبر التسلسل الكامل، ويُقدّر الوضعية ثلاثية الأبعاد باستخدام مُحول (transformer)، ويتعامل تلقائيًا مع مقاطع فيديو بأطوال متغيرة، ويُوظّف المعلومات الزمنية بالكامل. يُمكّن انتقال تقنيات المُحولات (transformers) نموذجنا من تعلّم البنية الهندسية المكانية بشكل أفضل، مع الحفاظ على المرونة والكفاءة في سيناريوهات تطبيق مختلفة. نُقدّم نتائج كمية ونوعية على مجموعات البيانات Human3.6M وTotalCapture وKTH Multiview Football II. ومقارنةً بالأساليب الرائدة التي تعتمد على معلمات الكاميرات، يُظهر MTF-Transformer أداءً تنافسيًا، ويُبيّن قدرة عالية على التعميم في المشاهد الديناميكية ذات عدد غير مسبوق من الرؤى.

محول دمجه متعدد الأبعاد والزمني التكيفي لتقدير موضع الإنسان ثلاثي الأبعاد | أحدث الأوراق البحثية | HyperAI