التعرف على العواطف الصوتية بناءً على تصحيح وزن الانتباه الذاتي للميزات الصوتية والنصية
تمثّل اعترافات العواطف الصوتية (SER) عنصرًا أساسيًا لفهم نية المتكلم. في الآونة الأخيرة، حاولت بعض الفرق تحسين أداء SER باستخدام ذاكرة طويلة قصيرة الأجل ثنائية الاتجاه (BLSTM) لاستخراج السمات من التسلسلات الصوتية، بالإضافة إلى آلية الانتباه الذاتي (self-attention) لتركيز الانتباه على الأجزاء المهمة من التسلسلات الصوتية. كما يُستفاد من SER من دمج المعلومات الصوتية مع النص، وهو ما يمكن تحقيقه تلقائيًا باستخدام مُعرّف الكلام التلقائي (ASR)، مما يُعزز أداءه بشكل إضافي. ومع ذلك، يتأثر أداء ASR سلبًا في حالة وجود عواطف في الكلام. وعلى الرغم من وجود طريقة لتحسين أداء ASR في وجود الكلام العاطفي، إلا أنها تتطلب تعديلًا دقيقًا (fine-tuning) لـ ASR، وهو ما يُرافقه تكلفة حسابية عالية، ويؤدي إلى فقدان مؤشرات مهمة لتحديد وجود العاطفة في المقاطع الصوتية، والتي قد تكون مفيدة في SER. ولحل هذه المشكلات، نقترح طريقة لـ SER تعتمد على BLSTM وآلية الانتباه الذاتي مع تصحيح لوزن الانتباه الذاتي (SAWC) باستخدام مقاييس الثقة. تُطبّق هذه الطريقة على مُستخرجَي السمات الصوتية والنصية في SER لتعديل أوزان الأهمية للمقاطع الصوتية والكلمات التي يحتمل أن تكون خاضعة لخطأ في التعرف على الكلام. يُقلل الاقتراح SAWC من أهمية الكلمات التي تُعرّف بشكل خاطئ في السمات النصية، في حين يُعزز من أهمية المقاطع الصوتية التي تحتوي على هذه الكلمات في السمات الصوتية. أظهرت نتائج التجارب على مجموعة بيانات التفاعل العاطفي ثنائي الحركة (IEMOCAP) أن الطريقة المقترحة تحقق دقة متوسطة موزونة تبلغ 76.6%، مما يفوق أداء الطرق الرائدة الأخرى. علاوةً على ذلك، قمنا بدراسة سلوك SAWC المقترح في كل من مُستخرجَي السمات.