HyperAIHyperAI
منذ 11 أيام

طريقة تحسين الدقة لتحديد المشاعر الصوتية من التمثيل الطيفي الزمني من خلال تعلم الارتباط الترددي الزمني والمعلومات المكانية عبر نقل المعرفة

Jeong-Yoon Kim, Seung-Ho Lee
طريقة تحسين الدقة لتحديد المشاعر الصوتية من التمثيل الطيفي الزمني من خلال تعلم الارتباط الترددي الزمني والمعلومات المكانية عبر نقل المعرفة
الملخص

في هذه الورقة، نقترح طريقة لتحسين دقة التعرف على العواطف من خلال الكلام (SER) باستخدام نموذج التحويل البصري (ViT) لتركيز الانتباه على الارتباط بين التردد (المحور y) والزمن (المحور x) في مخطط الطيف، ونقل معلومات الموضع بين نماذج ViT من خلال نقل المعرفة. يتم يتميز هذا النهج بالابتكار التالي:أولًا، نستخدم قطعًا مُقسَّمة عموديًا من مخطط الطيف اللوغاريتمي لمُعدّل ميل (log-Mel spectrogram) لتحليل الارتباط بين الترددات عبر الزمن. يمكّن هذا النوع من القطع من ربط الترددات الأكثر صلة بعاطفة معينة بالزمن الذي تم فيه نطقها.ثانيًا، نقترح استخدام ترميز إحداثيات الصورة (image coordinate encoding)، وهو نوع من ترميز الموضع المطلق المناسب لنموذج ViT. من خلال تطبيع إحداثيات الصورة x وy إلى النطاق من -1 إلى 1، ثم دمجها مع الصورة، نضمن تزويد نموذج ViT بمعلومات موضعية مطلقة فعّالة.ثالثًا، يتم نقل معلومات المحلية والموقع من الشبكة المُعلّمة (المحاضر) إلى الشبكة المُتعلّمة (الطالب) من خلال مطابقة خرائط الميزات (feature map matching). حيث تتكوّن الشبكة المُعلّمة من نموذج ViT يحتوي على معلومات محلية من طبقة الـ convolutional stem، بالإضافة إلى معلومات الموضع المطلق عبر ترميز إحداثيات الصورة، بينما تكون الشبكة المُتعلّمة عبارة عن بنية مبنية على ViT أساسية دون ترميز موضع. وفي مرحلة مطابقة الخرائط، يتم التدريب باستخدام خسارة القيمة المطلقة المتوسطة (L1 loss) لتقليل الفرق بين خرائط الميزات للنظامين. لتأكيد فعالية الطرق المقترحة، تم تحويل ثلاث مجموعات بيانات للعواطف (SAVEE، EmoDB، وCREMA-D) المكونة من كلام إلى مخططات الطيف اللوغاريتمية لمعدّل ميل لإجراء تجارب مقارنة. أظهرت النتائج التجريبية أن الطريقة المقترحة تتفوّق بشكل ملحوظ على أحدث الطرق المُتاحة من حيث الدقة الموزونة، مع الحاجة إلى عدد أقل بكثير من العمليات الحسابية (FLOPs). بشكل عام، تقدّم الطريقة المقترحة حلاً واعدًا للتعامل مع التعرف على العواطف من خلال الكلام، من خلال تحسين الكفاءة والأداء معًا.

طريقة تحسين الدقة لتحديد المشاعر الصوتية من التمثيل الطيفي الزمني من خلال تعلم الارتباط الترددي الزمني والمعلومات المكانية عبر نقل المعرفة | أحدث الأوراق البحثية | HyperAI