HyperAIHyperAI
منذ 16 أيام

emotion2vec: التدريب المسبق ذاتيًا للتمثيل الصوتي للعاطفة

Ziyang Ma, Zhisheng Zheng, Jiaxin Ye, Jinchao Li, Zhifu Gao, Shiliang Zhang, Xie Chen
emotion2vec: التدريب المسبق ذاتيًا للتمثيل الصوتي للعاطفة
الملخص

نُقدّم نموذج التمثيل الصوتي العاطفي "emotion2vec"، وهو نموذج تمثيل عاطفي صوتي عام. يتم تدريب "emotion2vec" مسبقًا على بيانات عاطفية غير مُسمّاة ومفتوحة المصدر باستخدام تقنية الاستخلاص التلقائي المباشر (self-supervised online distillation)، مع دمج خسارة على مستوى الجملة (utterance-level loss) وخسارة على مستوى الإطارات (frame-level loss) أثناء عملية التدريب المسبق. يتفوّق "emotion2vec" على النماذج المُدرّبة مسبقًا الأفضل في مجال التمثيل العام، وكذلك على النماذج المتخصصة في التعرف على العواطف، وذلك عند تدريب طبقات خطية بسيطة فقط لمهام التعرف على العواطف الصوتية على مجموعة بيانات IEMOCAP الشهيرة. بالإضافة إلى ذلك، يُظهر "emotion2vec" تحسينات متسقة عبر 10 لغات مختلفة ضمن مجموعات بيانات التعرف على العواطف الصوتية. كما يُحقّق "emotion2vec" نتائج ممتازة في مهام عاطفية أخرى، مثل التعرف على العواطف في الأغاني، وتوقع العواطف في المحادثات، وتحليل المشاعر (sentiment analysis). أُجريت تجارب مقارنة، وتجارب إزالة (ablation experiments)، وتصوّرات مرئية، والتي تُظهر بشكل شمولي القدرة العامة والمتعددة الاستخدامات للنموذج المُقترح. إلى حد معرفتنا، يُعد "emotion2vec" أول نموذج تمثيل عام في مهام متعددة مرتبطة بالعواطف، ما يُغطي فجوة مهمة في هذا المجال.

emotion2vec: التدريب المسبق ذاتيًا للتمثيل الصوتي للعاطفة | أحدث الأوراق البحثية | HyperAI