HyperAIHyperAI

Command Palette

Search for a command to run...

GestureLSM: توليد الإيماءات المرافقة للكلام باستخدام النماذج المكانية-الزمانية القائمة على الطرق المختصرة الكامنة

Pinxin Liu Luchuan Song Junhua Huang Haiyang Liu Chenliang Xu

الملخص

توليد حركات الجسم الكاملة بناءً على إشارات الكلام لا يزال يواجه تحديات في الجودة والسرعة. تُعدّ النهج الحالية التي تقوم بتقسيم مناطق الجسم المختلفة مثل الجسم، والساقين، واليدين ونمذجتها بشكل منفصل، مما يؤدي إلى عدم القدرة على التقاط التفاعلات المكانية بينها، وبالتالي إنتاج حركات غير طبيعية ومفككة. بالإضافة إلى ذلك، تظهر أنابيبهم القائمة على الاستدلال الذاتي أو الانتشار سرعة توليد بطيئة بسبب العديد من خطوات الاستدلال. لمعالجة هذين التحديين، نقترح GestureLSM، وهو نهج يستند إلى مطابقة التدفق (flow matching) لنمذجة الحركات المرافقة للكلام مع نمذجة مكانية-زمانية. طريقتنا: i) تقوم بنمذجة التفاعل بين المناطق المجزأة للجسم بشكل صريح من خلال الانتباه المكاني والزماني لإنتاج حركات جسم كاملة متماسكة. ii) تقدم مطابقة التدفق لتمكين عملية أخذ العينات بكفاءة أكبر عن طريق نمذجة الفضاء السرعة الكامنة بشكل صريح. لتجاوز الأداء غير الأمثل لمطابقة التدفق الأساسية، نقترح تعلم المسار القصير الكامن وتوزيع بيتا للعينات الزمنية أثناء التدريب لتعزيز جودة التركيب الحركي وتسريع الاستدلال. من خلال الجمع بين نمذجة المكان والزمان والإطار المستند إلى مطابقة التدفق المعززة، يحقق GestureLSM أفضل الأداء الحالي على BEAT2 مع تقليص كبير في وقت الاستدلال مقارنة بالطرق الموجودة، مما يؤكد إمكاناته في تعزيز البشر الرقميين والوكلاء الماديون في التطبيقات الواقعية.صفحة المشروع: https://andypinxinliu.github.io/GestureLSM


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp