WHAM: إعادة بناء البشر المرتبطين بالعالم مع حركة ثلاثية الأبعاد دقيقة

أصبحت تقدير حركة الإنسان ثلاثية الأبعاد من الفيديو موضوعًا يشهد تقدمًا سريعًا، لكن الطرق الحالية لا تزال تعاني من عدة قيود رئيسية. أولاً، تُقدّر معظم الطرق حركة الإنسان في الإحداثيات المرتبطة بالكاميرا. ثانيًا، غالبًا ما تفترض الدراسات السابقة التي تُقدّر حركة الإنسان في الإحداثيات العالمية مستوى أرضيًا مسطحًا، مما يؤدي إلى ظهور ظاهرة "انزلاق القدمين". ثالثًا، تعتمد أكثر الطرق دقة على أنظمة تحسين حسابية مكلفة، ما يحد من استخدامها في التطبيقات الزمنية الحقيقية. رابعًا، تُظهر الطرق القائمة على الفيديو، بشكل مفاجئ، دقة أقل من الطرق التي تعتمد على الإطارات الفردية. نعالج هذه القيود من خلال نموذج WHAM (البشر المُثبتين في العالم مع حركة دقيقة)، الذي يُعيد بناء حركة الإنسان ثلاثية الأبعاد بدقة وكفاءة في نظام إحداثيات عالمي من الفيديو. يتعلم WHAM رفع تسلسلات النقاط الثنائية الأبعاد إلى ثلاثي الأبعاد باستخدام بيانات التقاط الحركة، ثم يدمج هذه البيانات مع ميزات الفيديو، مع دمج سياق الحركة والمعلومات البصرية. يستفيد WHAM من سرعة دوران الكاميرا المُقدّرة باستخدام طريقة SLAM مع حركة الإنسان لتقدير مسار الجسم في الإحداثيات العالمية. ونُدمج هذا مع طريقة تحسين مسار واعٍ بالاتصال، تتيح لـ WHAM التقاط حركة الإنسان في ظروف متنوعة، مثل الصعود على الدرج. يتفوّق WHAM على جميع الطرق الحالية لإعادة بناء حركة الإنسان ثلاثية الأبعاد عبر عدة معايير تجريبية في البيئات الطبيعية. سيتم إتاحة الكود لأغراض بحثية عبر الرابط: http://wham.is.tue.mpg.de/