دمج الميزات العميقة وغير المراقبة للتعرف على العواطف الصوتية متعددة اللغات
في هذه الورقة، نقدم شبكة عصبية متعددة الطبقات (Convolutional Neural Network) لتحديد المشاعر متعددة اللغات من الجمل المنطوقة. كان الهدف من هذا العمل هو بناء نموذج قادر على التعرف على المشاعر من خلال دمج المعلومات النصية والصوتية، مع توافقه مع عدة لغات. يتميز النموذج الذي نُشِئ به ببنية عميقة من نوع "من البداية إلى النهاية" (end-to-end)، حيث يأخذ البيانات النصية والصوتية الخام، ويستخدم طبقات تلافيفية (convolutional layers) لاستخراج هرمية من السمات التصنيفية. علاوةً على ذلك، نُظهر كيف يحقق النموذج المدرب أداءً جيدًا في لغات مختلفة بفضل استخدام السمات النصية متعددة اللغات غير المُراقبة (multilingual unsupervised textual features). من الملاحظة الإضافية القيّمة أن حلنا لا يتطلب تزامنًا بين النص والصوت على مستوى الكلمات أو الصوتيات (word- أو phoneme-aligned). تم تدريب النموذج المقترح، المُسمى PATHOSnet، وتقييمه على عدة مجموعات بيانات تتضمن لغات منطوقة مختلفة (IEMOCAP، EmoFilm، SES، وAESI). قبل التدريب، قمنا بضبط المعلمات الفائقة (hyper-parameters) بشكل حصري على مجموعة بيانات IEMOCAP، التي توفر تسجيلات صوتية واقعية ونصوصًا مكتوبة للجمل ذات المحتوى العاطفي باللغة الإنجليزية. وتبين أن النموذج النهائي يحقق أداءً من الدرجة الأولى (state-of-the-art) على بعض من المجموعات المختارة، بالنسبة لل四大 مشاعر المدروسة.