التقاط الجسم التعبيري: اليدين والوجه والجسم من صورة واحدة

لتسهيل تحليل الأنشطة البشرية والتفاعلات والعواطف، نقوم بحساب نموذج ثلاثي الأبعاد لوضعية جسم الإنسان، وضعية اليدين، وتعبيرات الوجه من صورة أحادية العدسة واحدة. لتحقيق هذا الهدف، نستخدم آلاف المسحات ثلاثية الأبعاد لتدريب نموذج جديد موحد للجسم البشري ثلاثي الأبعاد، يُعرف باسم SMPL-X، والذي يوسع نطاق SMPL ليشمل اليدين المفصلتين بشكل كامل والوجه التعبيري. تعلم تقدير معلمات SMPL-X مباشرة من الصور أمر صعب دون وجود صور متزامنة ومعطيات حقيقية ثلاثية الأبعاد. لذلك، نتبع منهج SMPLify، الذي يقوم بتقدير الخصائص ثنائية الأبعاد ومن ثم تحسين معلمات النموذج لتتناسب مع هذه الخصائص. نحسن على SMPLify بعدة طرق مهمة: (1) نكتشف خصائص ثنائية الأبعاد مرتبطة بالوجه واليدين والأقدام ونقوم بتطبيق النموذج الكامل SMPL-X عليها؛ (2) ندرب شبكة عصبونية جديدة لمعلمة الوضعية باستخدام مجموعة بيانات MoCap كبيرة؛ (3) نحدد عقوبة جديدة للتداخل بين الأجسام تكون سريعة ودقيقة في آن واحد؛ (4) نكشف عن الجنس تلقائيًا واختيار النماذج الجسدية المناسبة (ذكر أو أنثى أو محايد)؛ (5) تنفيذنا باستخدام PyTorch يحقق زيادة في السرعة بنسبة أكثر من 8 أضعاف مقارنة بـ Chumpy. نستخدم الطريقة الجديدة SMPLify-X لتطبيق SMPL-X على كل من الصور المراقبة والصور العشوائية. قمنا بتقييم الدقة الثلاثية الأبعاد على مجموعة بيانات جديدة تم اختيارها بدقة وتتألف من 100 صورة تحتوي على معطيات حقيقية شبه دقيقة. هذا يعد خطوة نحو التقاط الإنسان التعبيري تلقائيًا من البيانات RGB أحادية العدسة. يمكن الحصول على النماذج والكود والمعلومات لأغراض البحث من الرابط https://smpl-x.is.tue.mpg.de.