كودتالكر: الرسوم المتحركة ثلاثية الأبعاد للوجه المُشغلة بالكلام مع أولوية حركية منفصلة

تم دراسة التحريك الوجهي ثلاثي الأبعاد المُدفَع بالكلام على نطاق واسع، ومع ذلك لا يزال هناك فجوة في تحقيق الواقعية والحيوية بسبب الطبيعة شديدة الغموض لنماذج هذه التقنية وندرة البيانات السمعية-البصرية. تميل الأعمال الحالية إلى صياغة الترجمة بين الوسائط المتعددة كمهمة تقريب (regression task)، والتي تعاني من مشكلة التقريب إلى المتوسط (regression-to-mean) مما يؤدي إلى حركات وجه مفرطة في الانسيابية. في هذا البحث، نقترح تحويل التحريك الوجهي ثلاثي الأبعاد المُدفَع بالكلام إلى مهمة استعلام عن الرمز (code query task) في فضاء وكيل محدود من الدفتر المرموز (learned codebook)، مما يعزز بشكل فعال حيوية الحركات المولدة بخفض عدم اليقين في الترجمة بين الوسائط المتعددة. يتم تعلم الدفتر المرموز عبر إعادة بناء الذات على حركات الوجه الحقيقية، وبالتالي يتم تضمينه بالأولويات الواقعية للحركة الوجهية. فوق الفضاء الحركي المنفصل، يتم استخدام نموذج ذاتي راجعي زمني لتكوين متتابع لحركات الوجه من الإشارة الصوتية للكلام المدخل، مما يضمن توافق الشفاه مع الكلام وكذلك تعبيرات وجه مقنعة. نوضح أن نهجنا يتفوق على الأساليب الأكثر حداثة حاليًا من حيث الجودة النوعية والكمية. كما أن دراسة المستخدمين تؤكد بشكل إضافي تفوقنا في جودة الإدراك.