HyperAIHyperAI

Command Palette

Search for a command to run...

منذ 4 أشهر

الدمج الهرمي لتصنيف أفعال المحادثة متعددة الوسائط عبر الإنترنت

{Ruihong Huang Adarsh Pyarelal Md Messal Monem Miah}

الدمج الهرمي لتصنيف أفعال المحادثة متعددة الوسائط عبر الإنترنت

الملخص

نُقدِّم إطارًا لتصنيف أفعال المحادثة متعددة الوسائط في الوقت الفعلي بناءً على الصوت الخام ونصوص التحويل الصوتي-النصي (ASR) الخاصة بالعبارات الحالية والماضية. تُعدّ النماذج الحالية لتصنيف أفعال المحادثة متعددة الوسائط محدودة بسبب نماذج الصوت غير الفعّالة ودمج الوسائط في مرحلة متأخرة. ونُظهر تحسينات كبيرة في تصنيف أفعال المحادثة متعددة الوسائط من خلال دمج الوسائط على مستوى أكثر دقة، ودمج التطورات الحديثة في النماذج اللغوية الكبيرة والنموذج الصوتي لاستخراج ميزات الصوت. كما نُجري دراسة معمقة لفعالية آليات الانتباه الذاتي (self-attention) والانتباه المتبادل (cross-attention) في نمذجة العبارات والمحادثات لتصنيف أفعال المحادثة. ونحقق زيادة ملحوظة قدرها 3 نقاط مئوية في معامل F1 مقارنةً بالنماذج الحالية الأفضل في مجالها على مجموعتي بيانات تصنيف أفعال المحادثة البارزتين، MRDA وEMOTyDA.

المعايير القياسية

معيار قياسيالمنهجيةالمقاييس
dialogue-act-classification-on-emotydaHierarchical Fusion
Accuracy: 63.42
dialogue-act-classification-on-icsi-meetingHierarchical Fusion
Accuracy: 91.8

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
الدمج الهرمي لتصنيف أفعال المحادثة متعددة الوسائط عبر الإنترنت | الأوراق البحثية | HyperAI