التركيب البصري من حركة الإنسان

التقاط الحركة البشرية على نطاق واسع وفي مشاهد متنوعة ومعقدة، رغم فائدته الكبيرة، غالبًا ما يعتبر باهظ التكلفة بشكل مفرط. ومع ذلك، فإن الحركة البشرية بمفردها تحتوي على معلومات غنية عن المشهد الذي يقيم فيه الإنسان ويتفاعل معه. على سبيل المثال، يشير الإنسان الجالس إلى وجود كرسي، وموضع ساقيه يوحي بمزيد من تفاصيل وضع الكرسي. في هذا البحث، نقترح إنشاء مشاهد متنوعة ومعقولة من الناحية الدلالية ومنطقية من الناحية الفيزيائية بناءً على الحركة البشرية. يتضمن إطارنا العمل Scene Synthesis from HUMan MotiON (SUMMON) خطوتين. فهو يستخدم أولاً ContactFormer، وهو نظام التنبؤ بالاتصال الجديد الذي قمنا بتطويره، للحصول على علامات اتصال زمنياً ثابتة من الحركة البشرية. ثم يقوم SUMMON بناءً على هذه التوقعات باختيار الأشياء التي تتفاعل مع الإنسان وتحسين خسائر البديهة الفيزيائية؛ كما يقوم بإضافة أشياء أخرى إلى المشهد لا تتفاعل مع الإنسان. تظهر النتائج التجريبية أن SUMMON قادر على إنشاء مشاهد قابلة للتنفيذ وبديهة ومتنوعة ولديه القدرة على إنتاج بيانات تفاعل واسعة بين الإنسان والمشهد لخدمة المجتمع العلمي.