Command Palette
Search for a command to run...
استعادة الشبكة ثلاثية الأبعاد للجسم بأكمله في مرحلة واحدة باستخدام محول يعي-know المكونات
استعادة الشبكة ثلاثية الأبعاد للجسم بأكمله في مرحلة واحدة باستخدام محول يعي-know المكونات
Jing Lin Ailing Zeng Haoqian Wang Lei Zhang Yu Li
الملخص
استعادة الشبكة الكاملة للجسم تهدف إلى تقدير معلمات الجسم البشري ثلاثي الأبعاد، والوجه، واليدين من صورة واحدة. يعتبر تنفيذ هذه المهمة بشبكة واحدة أمرًا صعبًا بسبب مشاكل الدقة، أي أن الوجه واليدين يقعان عادة في مناطق صغيرة للغاية. غالبًا ما تكتشف الأعمال الحالية اليدين والوجه، وتزيد من دقتها لتقديمها إلى شبكة محددة للتنبؤ بالمعلمة، ثم تقوم بدمج النتائج في النهاية. بينما يمكن لهذا الخط الأنبوبي (pipeline) القائم على النسخ واللصق التقاط التفاصيل الدقيقة للوجه واليدين، فإن الروابط بين الأجزاء المختلفة لا يمكن استعادتها بسهولة في عملية الدمج الأخيرة، مما يؤدي إلى دوران ثلاثي الأبعاد غير معقول وأوضاع غير طبيعية.في هذا العمل، نقترح خط أنبوبي واحدًا لاستعادة الشبكة الكاملة للجسم بشكل تعبيري، يُسمى OSX، دون شبكات منفصلة لكل جزء. بشكل خاص، نصمم محولًا (Transformer) واعيًا للمكونات (Component Aware Transformer - CAT) يتكون من مشفّر جسم عالمي ومحوّل وجه/يد محلي. يقوم المشفّر بتنبؤ معلمات الجسم ويوفر خريطة ميزات عالية الجودة للمحوّل، الذي ينفّذ مخطط زيادة الدقة وقص الميزات على مستوى الميزات لاستخراج ميزات خاصة بالأجزاء ذات الدقة العالية ويستخدم انتباه متغير مرشد بالنقاط الرئيسية (keypoint-guided deformable attention) لتقدير اليدين والوجه بدقة. يتميز الخط الأنبوبي بأكمله بالبساطة والفعالية دون أي معالجة يدوية بعد العملية ويتجنب بشكل طبيعي التنبؤ غير المعقول.تظهر التجارب الشاملة فعالية OSX. أخيرًا، نقوم بإنشاء قاعدة بيانات كبيرة الحجم للأجسام العلوية (Upper-Body dataset - UBody) تحتوي على شروح كاملة للجسم ثنائية الأبعاد وثلاثية الأبعاد عالية الجودة. تتضمن هذه القاعدة بيانات أشخاصًا ذوي أجسام جزئياً مرئية في سيناريوهات حياتية متنوعة لتضييق الفجوة بين المهمة الأساسية والتطبيقات اللاحقة.