HSPACE: بشر مُصطنَعون بمتغيرات مُتَعَدِّدة مُحَرَّكُون في بيئات معقدة

تُعاني التقدمات الحديثة في مجال الاستشعار ثلاثي الأبعاد للإنسان من نقص البيانات البصرية التي تحتوي على حقائق ثلاثية الأبعاد (3D ground truth)، خصوصًا تلك التي تتضمن عدة أشخاص في حركة، تعمل في بيئات واقعية معقدة، وتحت ظروف إضاءة معقدة أو تداخلات تغطية (occlusion)، وربما تُرصَد بواسطة كاميرات متحركة. ويتطلب فهم متطور للسياق تقييمًا دقيقًا لوضعية الجسم وشكله، بالإضافة إلى الإشارات الحركية (gestures)، بهدف إنشاء تمثيلات تدمج بين إشارات قياسية مفيدة وإشارات سلوكية، مع قدرة على عرض بصري مُحاكٍ للواقع (photo-realistic) من أي زاوية (free-viewpoint). ولضمان التقدم المستمر، نُنشئ مجموعة بيانات ضخمة وواقعية بصريًا، تُسمى "Human-SPACE" (HSPACE)، تُظهر أشخاصًا مُ/animations في بيئات داخلية وخارجية اصطناعية معقدة. ندمج مئة فرد متنوع في العمر، الجنس، النسب الجسدية، والانتماء العرقي، مع مئات الحركات والمشاهد، بالإضافة إلى تغيرات بارامترية في الشكل الجسدي (إجمالي 1600 شخص مختلف)، لإنشاء مجموعة بيانات أولية تتجاوز مليون إطار. تُحصل على الحركات البشرية من خلال تطبيق نموذج جسم بشري تعبيري (GHUM) على عمليات تصوير فردية (single scans) للأشخاص، تليها إجراءات جديدة لنقل الحركة (re-targeting) ووضع الأشخاص، تتيح تAnimating البشر بملابس واقعية، وتضمن تنوعًا إحصائيًا في النسب الجسدية، ومكانة متسقة ومتزامنة لعدة أشخاص متحركين في نفس السياق. يتم إنشاء الموارد تلقائيًا على نطاق واسع، وتتوافق مع محركات العرض الزمن الحقيقي والألعاب الحالية. ستُتاح مجموعة البيانات مع خادم التقييم للبحث العلمي. كما تُبرز تحليلاتنا الشاملة تأثير البيانات الاصطناعية، في ارتباطها بالبيانات الحقيقية والرقابة الضعيفة (weak supervision)، الإمكانات الكبيرة لتحسين الجودة مستقبلاً وتقليل الفجوة بين البيئة الافتراضية (sim) والواقع (real)، في هذا السياق العملي، خاصة مع زيادة قدرة النماذج.