HyperAIHyperAI
منذ 17 أيام

تعلم الارتباطات العرضية الهرمية عبر الوسائط لتخليق الحركات المصاحبة للكلام

Xian Liu, Qianyi Wu, Hang Zhou, Yinghao Xu, Rui Qian, Xinyi Lin, Xiaowei Zhou, Wayne Wu, Bo Dai, Bolei Zhou
تعلم الارتباطات العرضية الهرمية عبر الوسائط لتخليق الحركات المصاحبة للكلام
الملخص

إن إنشاء حركات جسدية وحركة يدوية متماشية مع الكلام يُعد مشكلة قديمة في مجال إنشاء الأفاتار الافتراضية. غالبًا ما تولّد الدراسات السابقة حركات الموضع بشكل جماعي، حيث يتم إنتاج موضع جميع المفاصل في آن واحد. ويُعَد هذا النهج المباشر غير فعّال في إنتاج إيماءات محادثة دقيقة. ولاحظنا أن المعاني الهرمية في الكلام والهياكل الهرمية للإشارات اليدوية البشرية يمكن وصفها بشكل طبيعي عبر درجات متنوعة من الدقة، وربطها معًا. وللاستفادة الكاملة من العلاقات الغنية بين الصوت الصوتي والحركة اليدوية البشرية، نقترح إطارًا جديدًا يُسمّى "HA2G" (الاستماع الهرمي إلى الإيماءة). في إطار HA2G، يستخرج "مُتعلّم الصوت الهرمي" تمثيلات صوتية عبر مختلف مستويات الدقة المعنوية. ثم يُنتج "مُحلّل الموضع الهرمي" الموضع البشري الكامل تدريجيًا بطريقة هرمية. ولتحسين جودة الإيماءات المُولَّدة، طوّرنا استراتيجية تعلّم تباينية تعتمد على التوافق بين النص والصوت، بهدف تحسين تمثيلات الصوت. أظهرت التجارب الواسعة والتقييم البشري أن الطريقة المقترحة تُولّد إيماءات محادثة واقعية وتتفوّق على الطرق السابقة بفارق واضح. صفحة المشروع: https://alvinliu0.github.io/projects/HA2G