مجموعة بيانات عاطفية كبيرة خام مع آلية تجميع

نقدّم مجموعة بيانات جديدة لمهام التعرف على العواطف في الكلام (SER) تُسمّى Dusha. تحتوي هذه المجموعة على ما يقارب 350 ساعة من البيانات، أكثر من 300,000 تسجيل صوتي بلغة الروسية ونصوصها المكتوبة. وبالتالي، فهي أكبر مجموعة بيانات مفتوحة ثنائية الوسائط (bi-modal) متاحة حاليًا لمهام التعرف على العواطف في الكلام. تم تسمية البيانات باستخدام منصة توظيف جماعي (crowd-sourcing)، وتشمل نوعين فرعيين: الأول هو تسجيلات مُمَثَّلة (acted)، والثاني يتألف من لقطات حقيقية من بودكاست صوتي. يمتاز الجزء الممثّل بتوزيع أكثر توازنًا بين الفئات مقارنةً بالجزء غير المتوازن المكوّن من البودكاست الصوتية. ولهذا، يُعدّ الجزء الأول مناسبًا لتدريب النموذج مسبقًا (pre-training)، بينما يُستخدم الثاني لتحسين النموذج (fine-tuning)، واعتماد النموذج، والتحقق من صحته. يصف هذا البحث إجراءات ما قبل المعالجة، وعملية التسمية، والتجارب التي أُجريت باستخدام نموذج أساسي، بهدف إظهار بعض المقاييس الفعلية التي يمكن تحقيقها باستخدام مجموعة بيانات Dusha.