Command Palette
Search for a command to run...
هندسة CNN+LSTM للاعتراف بالعواطف في الكلام مع زيادة البيانات
هندسة CNN+LSTM للاعتراف بالعواطف في الكلام مع زيادة البيانات
Caroline Etienne Guillaume Fidanza Andrei Petrovskii Laurence Devillers Benoît Schmauch
الملخص
في هذا العمل، قمنا بتصميم شبكة عصبية لتمييز العواطف في الكلام، باستخدام مجموعة بيانات IEMOCAP (IEMOCAP Dataset). وفقًا لأحدث التطورات في تحليل الصوت، نستخدم هيكلًا يشمل طبقات تلافيفية (Convolutional Layers) لاستخراج الخصائص العليا من الطيفوغرامات الخام، وطبقات متكررة (Recurrent Layers) لتجميع الارتباطات طويلة المدى. ندرس تقنيات زيادة البيانات من خلال تغيير طول المسار الصوتي، ضبط المُحسِّن طبقيًّا، وتَطْبيع الدفعات للطبقات المتكررة، ونحصل على نتائج تنافسية للغاية بنسبة دقة موزونة تبلغ 64.5% ودقة غير موزونة تبلغ 61.7% لـ أربع عواطف.