منذ 17 أيام

Speech2AffectiveGestures: توليد إيماءات مصاحبة للكلام باستخدام تعلم التعبيرات العاطفية القائمة على التوليد المعاكس

Uttaran Bhattacharya, Elizabeth Childs, Nicholas Rewkowski, Dinesh Manocha

الملخص

نقدم شبكةً توليدية متنافسة لتصنيع تسلسلات الوضع ثلاثية الأبعاد للحركات العلوية المرافقة للكلام، مع تعابير عاطفية مناسبة. تتكون شبكتنا من مكونين: مُولِّدٍ لتصنيع الحركات من فضاء تضمين مشترك للخصائص المستخلصة من الصوت المدخل والوضعيات الابتدائية (seed poses)، ومحكمٍ لتمييز التسلسلات المُصنَّعة من التسلسلات الحقيقية ثلاثية الأبعاد. نستفيد من معاملات كوسوفت الميل-تكراري (Mel-frequency cepstral coefficients) والنص النصي المستخلص من الصوت المدخل، باستخدام مشغلين منفصلين في المُولِّد، لتعلم المشاعر المرغوبة والمؤشرات العاطفية المرتبطة بها. صممنا مشغلاً عاطفياً باستخدام عمليات تبادلية رسمية متعددة المقاييس في الفضاء الزمني-المكاني، لتحويل تسلسلات الوضع ثلاثية الأبعاد إلى خصائص عاطفية خفية قائمة على الوضع. نستخدم هذا المشغل العاطفي في كل من المُولِّد، حيث يتعلم الخصائص العاطفية من الوضعيات الابتدائية لتوجيه تصنيع الحركات، وفي المحكم، حيث يفرض أن تكون الحركات المُصنَّعة تحتوي على تعابير عاطفية مناسبة. أجرينا تقييمات موسعة على مجموعتي بيانات معياريتين لتصنيع الحركات من الصوت: مجموعة بيانات TED Gesture ومجموعة بيانات GENEA Challenge 2020. بالمقارنة مع أفضل النماذج السابقة، تحسّننا بنسبة 10–33% في الخطأ المتوسط المطلق للمراتب، وبنسبة 8–58% في الفرق المتوسط في التسارع، وبنسبة 21–34% في مسافة جيراتش (Fréchet Gesture Distance). كما أجرينا دراسة مستخدمين، ولاحظنا أن حوالي 15.28% من المشاركين أشاروا إلى أن الحركات المُصنَّعة لدينا تبدو أكثر واقعية مقارنة بأفضل النماذج الحالية، وحوالي 16.32% شعروا أن الحركات تمتلك تعابير عاطفية أكثر ملاءمة متوافقة مع النص الصوتي.