HyperAIHyperAI

Command Palette

Search for a command to run...

دمج الميزات العميقة وغير المراقبة للتعرف على العواطف الصوتية متعددة اللغات

Roberto Tedesco Licia Sbattella Federico Galati Vincenzo Scotti

الملخص

في هذه الورقة، نقدم شبكة عصبية متعددة الطبقات (Convolutional Neural Network) لتحديد المشاعر متعددة اللغات من الجمل المنطوقة. كان الهدف من هذا العمل هو بناء نموذج قادر على التعرف على المشاعر من خلال دمج المعلومات النصية والصوتية، مع توافقه مع عدة لغات. يتميز النموذج الذي نُشِئ به ببنية عميقة من نوع "من البداية إلى النهاية" (end-to-end)، حيث يأخذ البيانات النصية والصوتية الخام، ويستخدم طبقات تلافيفية (convolutional layers) لاستخراج هرمية من السمات التصنيفية. علاوةً على ذلك، نُظهر كيف يحقق النموذج المدرب أداءً جيدًا في لغات مختلفة بفضل استخدام السمات النصية متعددة اللغات غير المُراقبة (multilingual unsupervised textual features). من الملاحظة الإضافية القيّمة أن حلنا لا يتطلب تزامنًا بين النص والصوت على مستوى الكلمات أو الصوتيات (word- أو phoneme-aligned). تم تدريب النموذج المقترح، المُسمى PATHOSnet، وتقييمه على عدة مجموعات بيانات تتضمن لغات منطوقة مختلفة (IEMOCAP، EmoFilm، SES، وAESI). قبل التدريب، قمنا بضبط المعلمات الفائقة (hyper-parameters) بشكل حصري على مجموعة بيانات IEMOCAP، التي توفر تسجيلات صوتية واقعية ونصوصًا مكتوبة للجمل ذات المحتوى العاطفي باللغة الإنجليزية. وتبين أن النموذج النهائي يحقق أداءً من الدرجة الأولى (state-of-the-art) على بعض من المجموعات المختارة، بالنسبة لل四大 مشاعر المدروسة.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
دمج الميزات العميقة وغير المراقبة للتعرف على العواطف الصوتية متعددة اللغات | مستندات | HyperAI