الانحدار الجسدي التعبيري الأحادي العين من خلال الانتباه الموجه بالجسم

لفهم كيفية نظر الأشخاص، التفاعل معهم أو أداء المهام، نحتاج إلى التقاط جسم الإنسان ووجهه وأيديه ثلاثية الأبعاد بسرعة ودقة من صورة RGB. تركز معظم الطرق الحالية على أجزاء محددة من الجسم فقط. بعض النهج الحديثة تقوم بإعادة بناء البشر ثلاثية الأبعاد بشكل كامل ومعبّر من الصور باستخدام نماذج الجسم ثلاثية الأبعاد التي تشمل الوجه والأيدي. هذه الطرق تعتمد على التحسين وهي بالتالي بطيئة، عرضة للحلول المحلية، وتتطلب نقاط مفتاح ثنائية الأبعاد كمدخلات. نعالج هذه القيود من خلال تقديم ExPose (EXpressive POse and Shape rEgression)، والتي تقوم بتقديم تقدير مباشر للجسم والوجه والأيدي في تنسيق SMPL-X من صورة RGB. يعد هذا مشكلة صعبة بسبب البعد العالي للجسم ونقص البيانات التدريبية المعبّرة. بالإضافة إلى ذلك، تكون اليدين والوجه أصغر بكثير من الجسم وتشغل قليلاً جداً من بكسلات الصورة. هذا يجعل تقدير اليدين والوجه صعبًا عند تصغير صور الجسم لشبكات العصبونات. لدينا ثلاثة إسهامات رئيسية. أولاً، نحن نعوض عن نقص البيانات التدريبية بجمع مجموعة بيانات لمطابقات SMPL-X على صور حقيقية (in-the-wild). ثانياً، لاحظنا أن تقدير الجسم يحدد موقع الوجه والأيدي بشكل معقول. قدمنا انتباهًا مدفوعًا بالجسم لمناطق الوجه والأيدي في الصورة الأصلية لاستخراج محاصيل ذات دقة أعلى يتم تغذيتها إلى وحدات تحسين متخصصة. ثالثاً، تستغل هذه الوحدات المعرفة الخاصة بالأجزاء من مجموعات البيانات الموجودة التي تتضمن فقط الوجوه والأيدي. يقدر ExPose البشر ثلاثية الأبعاد والمعبّرين بدقة أكبر من طرق التحسين الحالية وبجزء صغير فقط من التكلفة الحسابية. يمكن الحصول على بياناتنا والنماذج والكود الخاصة بنا للأبحاث على الرابط https://expose.is.tue.mpg.de .