مُحَوِّل الشبكة القابلة للتشويه لاسترداد شبكة الإنسان ثلاثية الأبعاد

نقدّم نموذج Deformable mesh transFormer (DeFormer)، وهو نهج جديد يعتمد على الرؤوس لاسترجاع شبكة الإنسان ثلاثية الأبعاد من صورة واحدة. يقوم DeFormer بتكييف نموذج شبكة الجسم تدريجيًا مع الصورة المدخلة من خلال حلقة تغذية راجعة لمحاذاة الشبكة، تُشكّل داخل مُفكّك مُحول (transformer decoder) مزود بوحدات انتباه مُشَغّلة بالشبكة الجسمية بكفاءة: 1) الانتباه الذاتي النادر للجسم، و2) الانتباه المتقابل المُتغَيِّر للشبكة. وبهذا، يمكن لـ DeFormer استغلال خرائط ميزات الصورة عالية الدقة ونموذج الشبكة الكثيف بشكل فعّال، وهي عناصر كانت مكلفة حسابيًا في النماذج السابقة التي تعتمد على انتباه المحول القياسي. أظهرت النتائج التجريبية أن DeFormer يحقق أداءً متميزًا على معايير Human3.6M و3DPW. كما أجريت دراسة تحليلية (Ablation study) لتوضيح فعالية تصميمات نموذج DeFormer في استغلال خرائط الميزات متعددة المقياس. يمكن الوصول إلى الكود عبر الرابط: https://github.com/yusukey03012/DeFormer.