
نقدّم نموذجًا يُسمى Mesh Graphormer، وهو نموذج مُعزّز بعمليات التصفية الرسومية (Graph Convolution) ويعتمد على المُحول (Transformer)، لاستعادة هندسة الهيكل ثلاثي الأبعاد ووضعية الجسم البشري من صورة واحدة. في الآونة الأخيرة، أظهر كل من نماذج المُحول (Transformers) وشبكات التعلم العميق الرسومية (GCNNs) تقدّمًا واعدًا في مجال استعادة الهيكل ثلاثي الأبعاد للجسم البشري. حيث تُعدّ النماذج القائمة على المُحول فعّالة في نمذجة التفاعلات غير المحلية بين رؤوس الشبكة ثلاثية الأبعاد والمعالم الحركية للجسم، في حين تُظهر الشبكات الرسومية القائمة على التصفية الرسومية (GCNNs) كفاءة في استغلال التفاعلات بين الجيران بناءً على هيكل الشبكة المُحدّد مسبقًا. في هذه الورقة، ندرس كيفية دمج عمليات التصفية الرسومية مع التفكير الذاتي (Self-attentions) داخل نموذج المُحول بهدف نمذجة التفاعلات المحلية والعالمية معًا. أظهرت النتائج التجريبية أن النموذج المقترح، Mesh Graphormer، يتفوّق بشكل كبير على أحدث النماذج السابقة في عدة معايير معيارية، بما في ذلك مجموعات البيانات Human3.6M و3DPW وFreiHAND. يمكن الاطلاع على الكود والنماذج المُدرّبة مسبقًا عبر الرابط التالي: https://github.com/microsoft/MeshGraphormer