GestureLSM: توليد الإيماءات المرافقة للكلام باستخدام النماذج المكانية-الزمانية القائمة على الطرق المختصرة الكامنة

توليد حركات الجسم الكاملة بناءً على إشارات الكلام لا يزال يواجه تحديات في الجودة والسرعة. تُعدّ النهج الحالية التي تقوم بتقسيم مناطق الجسم المختلفة مثل الجسم، والساقين، واليدين ونمذجتها بشكل منفصل، مما يؤدي إلى عدم القدرة على التقاط التفاعلات المكانية بينها، وبالتالي إنتاج حركات غير طبيعية ومفككة. بالإضافة إلى ذلك، تظهر أنابيبهم القائمة على الاستدلال الذاتي أو الانتشار سرعة توليد بطيئة بسبب العديد من خطوات الاستدلال. لمعالجة هذين التحديين، نقترح GestureLSM، وهو نهج يستند إلى مطابقة التدفق (flow matching) لنمذجة الحركات المرافقة للكلام مع نمذجة مكانية-زمانية. طريقتنا: i) تقوم بنمذجة التفاعل بين المناطق المجزأة للجسم بشكل صريح من خلال الانتباه المكاني والزماني لإنتاج حركات جسم كاملة متماسكة. ii) تقدم مطابقة التدفق لتمكين عملية أخذ العينات بكفاءة أكبر عن طريق نمذجة الفضاء السرعة الكامنة بشكل صريح. لتجاوز الأداء غير الأمثل لمطابقة التدفق الأساسية، نقترح تعلم المسار القصير الكامن وتوزيع بيتا للعينات الزمنية أثناء التدريب لتعزيز جودة التركيب الحركي وتسريع الاستدلال. من خلال الجمع بين نمذجة المكان والزمان والإطار المستند إلى مطابقة التدفق المعززة، يحقق GestureLSM أفضل الأداء الحالي على BEAT2 مع تقليص كبير في وقت الاستدلال مقارنة بالطرق الموجودة، مما يؤكد إمكاناته في تعزيز البشر الرقميين والوكلاء الماديون في التطبيقات الواقعية.صفحة المشروع: https://andypinxinliu.github.io/GestureLSM