HyperAIHyperAI

Command Palette

Search for a command to run...

الدمج الهرمي لتصنيف أفعال المحادثة متعددة الوسائط عبر الإنترنت

Ruihong Huang Adarsh Pyarelal Md Messal Monem Miah

الملخص

نُقدِّم إطارًا لتصنيف أفعال المحادثة متعددة الوسائط في الوقت الفعلي بناءً على الصوت الخام ونصوص التحويل الصوتي-النصي (ASR) الخاصة بالعبارات الحالية والماضية. تُعدّ النماذج الحالية لتصنيف أفعال المحادثة متعددة الوسائط محدودة بسبب نماذج الصوت غير الفعّالة ودمج الوسائط في مرحلة متأخرة. ونُظهر تحسينات كبيرة في تصنيف أفعال المحادثة متعددة الوسائط من خلال دمج الوسائط على مستوى أكثر دقة، ودمج التطورات الحديثة في النماذج اللغوية الكبيرة والنموذج الصوتي لاستخراج ميزات الصوت. كما نُجري دراسة معمقة لفعالية آليات الانتباه الذاتي (self-attention) والانتباه المتبادل (cross-attention) في نمذجة العبارات والمحادثات لتصنيف أفعال المحادثة. ونحقق زيادة ملحوظة قدرها 3 نقاط مئوية في معامل F1 مقارنةً بالنماذج الحالية الأفضل في مجالها على مجموعتي بيانات تصنيف أفعال المحادثة البارزتين، MRDA وEMOTyDA.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp