منذ 6 أشهر

الملخص

نقدّم مجموعة بيانات جديدة لمهام التعرف على العواطف في الكلام (SER) تُسمّى Dusha. تحتوي هذه المجموعة على ما يقارب 350 ساعة من البيانات، أكثر من 300,000 تسجيل صوتي بلغة الروسية ونصوصها المكتوبة. وبالتالي، فهي أكبر مجموعة بيانات مفتوحة ثنائية الوسائط (bi-modal) متاحة حاليًا لمهام التعرف على العواطف في الكلام. تم تسمية البيانات باستخدام منصة توظيف جماعي (crowd-sourcing)، وتشمل نوعين فرعيين: الأول هو تسجيلات مُمَثَّلة (acted)، والثاني يتألف من لقطات حقيقية من بودكاست صوتي. يمتاز الجزء الممثّل بتوزيع أكثر توازنًا بين الفئات مقارنةً بالجزء غير المتوازن المكوّن من البودكاست الصوتية. ولهذا، يُعدّ الجزء الأول مناسبًا لتدريب النموذج مسبقًا (pre-training)، بينما يُستخدم الثاني لتحسين النموذج (fine-tuning)، واعتماد النموذج، والتحقق من صحته. يصف هذا البحث إجراءات ما قبل المعالجة، وعملية التسمية، والتجارب التي أُجريت باستخدام نموذج أساسي، بهدف إظهار بعض المقاييس الفعلية التي يمكن تحقيقها باستخدام مجموعة بيانات Dusha.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار