منذ 7 أشهر

الملخص

نقوم بدراسة أداء الخصائص التي يمكنها التقاط الديناميكيات التكرارية اللاخطية المضمنة في إشارة الكلام لغرض التعرف على العواطف في الكلام (SER). إعادة بناء فضاء الطور لكل إطار من إطارات الكلام وحساب مخطط التكرار (RP) الخاص به يكشف عن هياكل معقدة يمكن قياسها من خلال تنفيذ تحليل كمية التكرار (RQA). يتم جمع هذه القياسات باستخدام دوال إحصائية على فترات القطعة والعبارة. نقدم نتائج SER للمجموعة المقترحة من الخصائص على ثلاثة قواعد بيانات باستخدام طرق تصنيف مختلفة. عند دمج الخصائص المقترحة مع المجموعات التقليدية من الخصائص، نظهر تحسينًا في الدقة غير المرتبكة يصل إلى 5.7% و10.7% في مهمتي التعرف على العواطف في الكلام المعتمدة على المتحدث (SD) والمستقلة عن المتحدث (SI)، على التوالي، مقارنة بالأساس. اتباعًا للنهج القائم على القطع، نوضح الأداء الرائد على IEMOCAP باستخدام شبكة عصبية متكررة ثنائية الاتجاه.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار