تقييم نماذج wav2vec 2.0 على مهام الانفجارات الصوتية العاطفية
يُعد البحث عن المؤشرات الحيوية العاطفية داخل الصوت البشري مجالًا بحثيًا يُعَدّ صعبًا. ركزت الدراسات السابقة على توقع الحالة العاطفية من خلال الكلام؛ أما هذه الدراسة، فتستكشف مهامًا متعددة تتعلق بالانفجارات الصوتية العاطفية. مستوحاة من النجاح الذي حققته التعلم ذاتي التحفيز في التعرف التلقائي على الكلام، استخدمنا نماذج متنوعة من wav2vec 2.0 لاستخراج تمثيلات صوتية (acoustic embeddings) في أربع مهام تتعلق بالانفجارات الصوتية العاطفية: High، Two، Culture، و Type. وباستخدام بنية مماثلة لجميع المهام، كشف تقييم التمثيلات الصوتية عن إمكانية استخدام نماذج wav2vec 2.0 بدلاً من الخصائص الصوتية التقليدية في مهام الانفجارات الصوتية العاطفية. قمنا بتقييم كل من الخصائص الصوتية التقليدية والتمثيلات الصوتية الناتجة باستخدام عشرين بذرة تقييم مختلفة، وقمنا بإبلاغ أعلى الدرجات ومتوسطها مع الانحراف المعياري في مجموعة التحقق. وساعدت ثلاث درجات عالية تم الحصول عليها من هذه العمليات في التحقق على توليد توقعات لبيانات الاختبار. وعند مقارنة درجات الاختبار مع الدراسات السابقة، تم تحقيق تحسينات ملحوظة.