تعلم الارتباطات العرضية الهرمية عبر الوسائط لتخليق الحركات المصاحبة للكلام

إن إنشاء حركات جسدية وحركة يدوية متماشية مع الكلام يُعد مشكلة قديمة في مجال إنشاء الأفاتار الافتراضية. غالبًا ما تولّد الدراسات السابقة حركات الموضع بشكل جماعي، حيث يتم إنتاج موضع جميع المفاصل في آن واحد. ويُعَد هذا النهج المباشر غير فعّال في إنتاج إيماءات محادثة دقيقة. ولاحظنا أن المعاني الهرمية في الكلام والهياكل الهرمية للإشارات اليدوية البشرية يمكن وصفها بشكل طبيعي عبر درجات متنوعة من الدقة، وربطها معًا. وللاستفادة الكاملة من العلاقات الغنية بين الصوت الصوتي والحركة اليدوية البشرية، نقترح إطارًا جديدًا يُسمّى "HA2G" (الاستماع الهرمي إلى الإيماءة). في إطار HA2G، يستخرج "مُتعلّم الصوت الهرمي" تمثيلات صوتية عبر مختلف مستويات الدقة المعنوية. ثم يُنتج "مُحلّل الموضع الهرمي" الموضع البشري الكامل تدريجيًا بطريقة هرمية. ولتحسين جودة الإيماءات المُولَّدة، طوّرنا استراتيجية تعلّم تباينية تعتمد على التوافق بين النص والصوت، بهدف تحسين تمثيلات الصوت. أظهرت التجارب الواسعة والتقييم البشري أن الطريقة المقترحة تُولّد إيماءات محادثة واقعية وتتفوّق على الطرق السابقة بفارق واضح. صفحة المشروع: https://alvinliu0.github.io/projects/HA2G