HyperAIHyperAI
منذ 3 أشهر

ثوندر: إعادة بناء الإنسان ثلاثي الأبعاد القائمة على المحولات مع العلامات

Mihai Zanfir, Andrei Zanfir, Eduard Gabriel Bazavan, William T. Freeman, Rahul Sukthankar, Cristian Sminchisescu
ثوندر: إعادة بناء الإنسان ثلاثي الأبعاد القائمة على المحولات مع العلامات
الملخص

نقدّم نموذج THUNDR، وهو منهجية قائمة على نموذج الترانسفورمر (Transformer) للشبكة العصبية العميقة، تُستخدم لإعادة بناء الوضعية والشكل الثلاثي الأبعاد للأشخاص، بالاعتماد على صور RGB ذات منظور واحد. وتمثّل النقطة الأساسية في منهجيتنا تمثيلًا مُشَكَّلًا ثلاثي الأبعاد مُتوسّطًا باستخدام علامات ثلاثية الأبعاد، حيث نهدف إلى دمج القوة التنبؤية للهياكل التي لا تعتمد على النموذج (model-free-output architectures) مع الخصائص الترويضية والحفاظ على الخصائص الأنسانية (anthropometrically-preserving) المُتَّسمة بنموذج سطح بشري إحصائي مثل GHUM — وهو نموذج ثلاثي الأبعاد شامل للجسم البشري، مُعبّر، وقد تم تدريبه بشكل متكامل (end-to-end) حديثًا. ويُتيح لنا النموذج الجديد القائم على الترانسفورمر القدرة على التركيز على مناطق الصورة ذات الصلة بالمهام، ويدعم السياقات ذات التعلم الذاتي (self-supervised regimes)، ويضمن أن تكون الحلول متسقة مع الخصائص الأنسانية. ونُظهر نتائج متفوقة على مستوى الحالة الحالية (state-of-the-art) على مجموعتي بيانات Human3.6M و3DPW، سواء في النماذج ذات التدريب الكامل (fully-supervised) أو النماذج ذات التدريب الذاتي، في مهام استنتاج الشكل البشري ثلاثي الأبعاد، ومواقع المفاصل، والتحول العالمي. علاوةً على ذلك، لاحظنا أداءً قويًا جدًا في إعادة البناء ثلاثي الأبعاد حتى في حالات الأوضاع البشرية الصعبة التي تم جمعها في البيئة الطبيعية (in the wild).