الملخص

تمثّل تقنية تمييز العواطف الصوتية (SER) تقنية أساسية لتمكين تواصل أكثر طبيعية بين الإنسان والآلة. ومع ذلك، عانَت SER لفترة طويلة من نقص المجموعات العامة الكبيرة المُصنَّفة من البيانات. لتجاوز هذه المشكلة، نستكشف كيف يمكن لتعلم التمثيل غير المراقب على مجموعات بيانات غير مصنفة أن يُفيد في SER. ونُظهر أن طريقة التشفير التنبؤي التبايني (CPC) قادرة على استخلاص تمثيلات بارزة من مجموعات بيانات غير مصنفة، مما يُحسّن أداء تمييز العواطف. وفي تجاربنا، حققت هذه الطريقة أداءً متقدماً على مستوى الحالة الحالية (SOTA) من حيث معامل التوافق التكافؤي (CCC) بالنسبة لجميع مكونات العواطف الأساسية (النشاط، والقيمة، والهيمنة) على مجموعة بيانات IEMOCAP. بالإضافة إلى ذلك، حققت طريقة لدينا تحسينات كبيرة في الأداء مقارنة بالأساليب الأساسية على مجموعة بيانات MSP-Podcast.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار