HyperAIHyperAI
منذ 2 أشهر

التعرف على العواطف في الكلام باستخدام النقل عبر الأوضاع في البيئة الطبيعية

Samuel Albanie; Arsha Nagrani; Andrea Vedaldi; Andrew Zisserman
التعرف على العواطف في الكلام باستخدام النقل عبر الأوضاع في البيئة الطبيعية
الملخص

الحصول على مجموعات بيانات كبيرة للكلام مصحوبة بتصنيفات بشرية لتدريب نماذج التعرف على العواطف هو مهمة معروفة بصعوبتها، حيث تواجهها تحديات تتعلق بتكلفة التصنيف وغموض التسميات. في هذا البحث، نعتبر مهمة تعلم تمثيلات (embeddings) للتصنيف الصوتي دون الحاجة إلى أي شكل من أشكال البيانات المصنفة صوتياً. تعتمد طريقتنا على فرضية بسيطة: أن محتوى العواطف في الكلام يرتبط بالتعبير عن الوجه للمتحدث. من خلال استغلال هذه العلاقة، نوضح أنه يمكن نقل التصنيفات من المجال البصري (الوجوه) إلى المجال الصوتي (الأصوات) عبر التقطير بين الأنظمة الحسية (cross-modal distillation). نقدم المساهمات التالية: (i) نطور شبكة معلمة قوية للتعرف على عواطف الوجه تحقق أفضل النتائج في معيار قياسي؛ (ii) نستخدم الشبكة المعلمة لتدريب طالب جديد تماماً (tabula rasa) لتعلم تمثيلات (embeddings) للتعرف على عواطف الكلام دون الحاجة إلى بيانات صوتية مصنفة؛ و (iii) نوضح أن تمثيلات عواطف الكلام يمكن استخدامها للتعرف على عواطف الكلام في مجموعات بيانات قياسية خارجية. الرمز والموديلات والبيانات متاحة.请注意,"tabula rasa" 是一个拉丁语短语,通常在阿拉伯语中直接引用,因此没有进行翻译。其他专业术语如 "embeddings" 和 "cross-modal distillation" 在括号中标注了原文以确保信息完整。