التعلم غير المراقب التبايني لتقدير العواطف الصوتية

تمثّل تقنية تمييز العواطف الصوتية (SER) تقنية أساسية لتمكين تواصل أكثر طبيعية بين الإنسان والآلة. ومع ذلك، عانَت SER لفترة طويلة من نقص المجموعات العامة الكبيرة المُصنَّفة من البيانات. لتجاوز هذه المشكلة، نستكشف كيف يمكن لتعلم التمثيل غير المراقب على مجموعات بيانات غير مصنفة أن يُفيد في SER. ونُظهر أن طريقة التشفير التنبؤي التبايني (CPC) قادرة على استخلاص تمثيلات بارزة من مجموعات بيانات غير مصنفة، مما يُحسّن أداء تمييز العواطف. وفي تجاربنا، حققت هذه الطريقة أداءً متقدماً على مستوى الحالة الحالية (SOTA) من حيث معامل التوافق التكافؤي (CCC) بالنسبة لجميع مكونات العواطف الأساسية (النشاط، والقيمة، والهيمنة) على مجموعة بيانات IEMOCAP. بالإضافة إلى ذلك، حققت طريقة لدينا تحسينات كبيرة في الأداء مقارنة بالأساليب الأساسية على مجموعة بيانات MSP-Podcast.