HyperAIHyperAI

Command Palette

Search for a command to run...

نموذج الانتباه المتقاطع الهرمي لتقدير المشاعر متعددة الوسائط

Soumya Dutta Sriram Ganapathy

الملخص

تمييز المشاعر في المحادثات يُعدّ تحديًا بسبب الطبيعة متعددة الوسائط لتعبير المشاعر. نقترح نموذجًا هرميًا للانتباه المتقاطع (HCAM) لتمييز المشاعر متعددة الوسائط، باستخدام مزيج من نماذج الشبكات العصبية التكرارية (Recurrent Neural Networks) ونماذج الانتباه المشترك (Co-Attention). يتكون المدخل إلى النموذج من وسيلتين: أولاً، بيانات صوتية تُعالج باستخدام نهج قابل للتعلم يُسمى wav2vec، وثانيًا، بيانات نصية تمثل باستخدام نموذج تمثيلات الترميز ثنائي الاتجاه من نموذج المحولات (BERT). يتم معالجة تمثيلات الصوت والنص باستخدام مجموعة من طبقات الشبكات العصبية التكرارية الثنائية الاتجاه مع انتباه ذاتي، والتي تحول كل جملة في المحادثة إلى تمثيل ثابت البُعد. ولدمج المعرفة السياقية ومعلومات الوسائط المختلفة، يتم دمج تمثيلات الصوت والنص باستخدام طبقة انتباه مشترك، تسعى إلى تقييم أهمية تمثيلات الجملة بالنسبة لمهام تمييز المشاعر. يتم تدريب معاملات الشبكة العصبية في طبقات الصوت، وطبقات النص، وكذلك طبقات الانتباه المشترك متعددة الوسائط بشكل هرمي لمهام تصنيف المشاعر. أجرينا تجارب على ثلاث مجموعات بيانات معروفة، وهي IEMOCAP وMELD وCMU-MOSI، حيث أظهرنا أن النموذج المقترح يتفوق بشكل ملحوظ على النماذج الأخرى، ويُسهم في تحقيق نتائج من المستوى الرائد (State-of-the-Art) في جميع هذه المجموعات.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp