إعادة بناء وضعية الإنسان وشبكته من النهاية إلى النهاية باستخدام المتحولات

نقدم طريقة جديدة تُسمى MEsh TRansfOrmer (METRO) لاستعادة وضع الإنسان ثلاثي الأبعاد ورؤوس الشبكة من صورة واحدة. تعتمد طريقتنا على مُشفِّر الترانسفورمر لنمذجة التفاعلات بين رؤوس الشبكة وبين الرأس والمفصل بشكل مشترك، وتُخرِج إحداثيات المفاصل ثلاثية الأبعاد ورؤوس الشبكة في آنٍ واحد. بالمقارنة مع التقنيات الحالية التي تستند إلى تقدير معلمات الوضع والشكل، لا تعتمد METRO على أي نماذج شبكات بارامترية مثل SMPL، مما يجعل من السهل توسيعها إلى أشياء أخرى مثل اليدين. كما أننا نخفف من توبولوجيا الشبكة ونسمح لآلية انتباه الذات في الترانسفورمر بالانتباه بحرية بين أي رأسين، مما يجعل من الممكن تعلم العلاقات غير المحلية بين رؤوس الشبكة والمفاصل. باستخدام النمذجة المقوننة للرؤوس المقترحة، تكون طريقتنا أكثر متانة وفعالية في التعامل مع الحالات الصعبة مثل الإغلاق الجزئي. تولّد METRO نتائجًا جديدةً تعتبر أفضل ما تم الوصول إليه حتى الآن في استعادة الشبكة البشرية ثلاثية الأبعاد على مجموعتي البيانات العامة Human3.6M و3DPW. علاوةً على ذلك، نثبت قابلية تعميم METRO على استعادة اليد ثلاثية الأبعاد في البيئة الطبيعية، حيث تتفوق على أفضل الطرق الحالية في مجموعة بيانات FreiHAND. يمكن الحصول على الكود والنماذج المدربة مسبقًا من https://github.com/microsoft/MeshTransformer.