HyperAIHyperAI

Command Palette

Search for a command to run...

Speech2AffectiveGestures: توليد إيماءات مصاحبة للكلام باستخدام تعلم التعبيرات العاطفية القائمة على التوليد المعاكس

Uttaran Bhattacharya Elizabeth Childs Nicholas Rewkowski Dinesh Manocha

الملخص

نقدم شبكةً توليدية متنافسة لتصنيع تسلسلات الوضع ثلاثية الأبعاد للحركات العلوية المرافقة للكلام، مع تعابير عاطفية مناسبة. تتكون شبكتنا من مكونين: مُولِّدٍ لتصنيع الحركات من فضاء تضمين مشترك للخصائص المستخلصة من الصوت المدخل والوضعيات الابتدائية (seed poses)، ومحكمٍ لتمييز التسلسلات المُصنَّعة من التسلسلات الحقيقية ثلاثية الأبعاد. نستفيد من معاملات كوسوفت الميل-تكراري (Mel-frequency cepstral coefficients) والنص النصي المستخلص من الصوت المدخل، باستخدام مشغلين منفصلين في المُولِّد، لتعلم المشاعر المرغوبة والمؤشرات العاطفية المرتبطة بها. صممنا مشغلاً عاطفياً باستخدام عمليات تبادلية رسمية متعددة المقاييس في الفضاء الزمني-المكاني، لتحويل تسلسلات الوضع ثلاثية الأبعاد إلى خصائص عاطفية خفية قائمة على الوضع. نستخدم هذا المشغل العاطفي في كل من المُولِّد، حيث يتعلم الخصائص العاطفية من الوضعيات الابتدائية لتوجيه تصنيع الحركات، وفي المحكم، حيث يفرض أن تكون الحركات المُصنَّعة تحتوي على تعابير عاطفية مناسبة. أجرينا تقييمات موسعة على مجموعتي بيانات معياريتين لتصنيع الحركات من الصوت: مجموعة بيانات TED Gesture ومجموعة بيانات GENEA Challenge 2020. بالمقارنة مع أفضل النماذج السابقة، تحسّننا بنسبة 10–33% في الخطأ المتوسط المطلق للمراتب، وبنسبة 8–58% في الفرق المتوسط في التسارع، وبنسبة 21–34% في مسافة جيراتش (Fréchet Gesture Distance). كما أجرينا دراسة مستخدمين، ولاحظنا أن حوالي 15.28% من المشاركين أشاروا إلى أن الحركات المُصنَّعة لدينا تبدو أكثر واقعية مقارنة بأفضل النماذج الحالية، وحوالي 16.32% شعروا أن الحركات تمتلك تعابير عاطفية أكثر ملاءمة متوافقة مع النص الصوتي.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
Speech2AffectiveGestures: توليد إيماءات مصاحبة للكلام باستخدام تعلم التعبيرات العاطفية القائمة على التوليد المعاكس | مستندات | HyperAI