HyperAIHyperAI

Command Palette

Search for a command to run...

كودتالكر: الرسوم المتحركة ثلاثية الأبعاد للوجه المُشغلة بالكلام مع أولوية حركية منفصلة

Xing Jinbo ; Xia Menghan ; Zhang Yuechen ; Cun Xiaodong ; Wang Jue ; Wong Tien-Tsin

الملخص

تم دراسة التحريك الوجهي ثلاثي الأبعاد المُدفَع بالكلام على نطاق واسع، ومع ذلك لا يزال هناك فجوة في تحقيق الواقعية والحيوية بسبب الطبيعة شديدة الغموض لنماذج هذه التقنية وندرة البيانات السمعية-البصرية. تميل الأعمال الحالية إلى صياغة الترجمة بين الوسائط المتعددة كمهمة تقريب (regression task)، والتي تعاني من مشكلة التقريب إلى المتوسط (regression-to-mean) مما يؤدي إلى حركات وجه مفرطة في الانسيابية. في هذا البحث، نقترح تحويل التحريك الوجهي ثلاثي الأبعاد المُدفَع بالكلام إلى مهمة استعلام عن الرمز (code query task) في فضاء وكيل محدود من الدفتر المرموز (learned codebook)، مما يعزز بشكل فعال حيوية الحركات المولدة بخفض عدم اليقين في الترجمة بين الوسائط المتعددة. يتم تعلم الدفتر المرموز عبر إعادة بناء الذات على حركات الوجه الحقيقية، وبالتالي يتم تضمينه بالأولويات الواقعية للحركة الوجهية. فوق الفضاء الحركي المنفصل، يتم استخدام نموذج ذاتي راجعي زمني لتكوين متتابع لحركات الوجه من الإشارة الصوتية للكلام المدخل، مما يضمن توافق الشفاه مع الكلام وكذلك تعبيرات وجه مقنعة. نوضح أن نهجنا يتفوق على الأساليب الأكثر حداثة حاليًا من حيث الجودة النوعية والكمية. كما أن دراسة المستخدمين تؤكد بشكل إضافي تفوقنا في جودة الإدراك.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp