HyperAIHyperAI

Command Palette

Search for a command to run...

مُشَكِّل الحركة الإيقاعية: توليد إشارات الكلام المصاحبة مع الوعي بالإيقاع باستخدام تضمينات عصبية هرمية

Tenglong Ao Qingzhe Gao Yuke Lou Baoquan Chen Libin Liu

الملخص

يُعدّ التوليد التلقائي للإشارات الحركية الواقعية المرافقة للكلام مهمة متزايدة الأهمية ولكنها صعبة في إنشاء الوكلاء الافتراضيين المُجسمين. ركّزت الأنظمة السابقة بشكل رئيسي على توليد الإشارات بطريقة نهائية (end-to-end)، مما يُسبب صعوبات في استخلاص الإيقاع الواضح والدلالات بسبب التوازن المعقد لكن الدقيق بين الكلام والحركة. نقدّم طريقة جديدة لتوليد الإشارات المرافقة للكلام تحقق نتائج مقنعة من حيث الإيقاع والدلالات. أما من حيث الإيقاع، فإن نظامنا يحتوي على خطّة تجزئة قائمة على الإيقاع قوية، تضمن الترابط الزمني الصريح بين النطق والإشارات. أما من حيث دلالة الحركة، فقد طوّرنا آلية فعّالة لفصل تضمينات الشبكة العصبية منخفضة المستوى وعالية المستوى للكلام والحركة بناءً على النظرية اللغوية. حيث يتوافق التضمين العالي المستوى مع الدلالة، بينما يرتبط التضمين منخفض المستوى بالاختلافات الدقيقة. وأخيرًا، نُنشئ تقابلًا بين التضمينات الهرمية للكلام والحركة، ما يؤدي إلى توليد إشارات واعية بالإيقاع والدلالات. وتبين التقييمات باستخدام مقاييس موضوعية موجودة، ومقاييس إيقاعية جديدة اقترحناها، والتعليقات البشرية أن طريقة عملنا تتفوّق بوضوح على الأنظمة الرائدة في مجالها.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp