دمج الديناميكية التكرار للاعتراف بالعواطف في الكلام

نقوم بدراسة أداء الخصائص التي يمكنها التقاط الديناميكيات التكرارية اللاخطية المضمنة في إشارة الكلام لغرض التعرف على العواطف في الكلام (SER). إعادة بناء فضاء الطور لكل إطار من إطارات الكلام وحساب مخطط التكرار (RP) الخاص به يكشف عن هياكل معقدة يمكن قياسها من خلال تنفيذ تحليل كمية التكرار (RQA). يتم جمع هذه القياسات باستخدام دوال إحصائية على فترات القطعة والعبارة. نقدم نتائج SER للمجموعة المقترحة من الخصائص على ثلاثة قواعد بيانات باستخدام طرق تصنيف مختلفة. عند دمج الخصائص المقترحة مع المجموعات التقليدية من الخصائص، نظهر تحسينًا في الدقة غير المرتبكة يصل إلى 5.7% و10.7% في مهمتي التعرف على العواطف في الكلام المعتمدة على المتحدث (SD) والمستقلة عن المتحدث (SI)، على التوالي، مقارنة بالأساس. اتباعًا للنهج القائم على القطع، نوضح الأداء الرائد على IEMOCAP باستخدام شبكة عصبية متكررة ثنائية الاتجاه.