الدمج الهرمي لتصنيف أفعال المحادثة متعددة الوسائط عبر الإنترنت
{Ruihong Huang Adarsh Pyarelal Md Messal Monem Miah}

الملخص
نُقدِّم إطارًا لتصنيف أفعال المحادثة متعددة الوسائط في الوقت الفعلي بناءً على الصوت الخام ونصوص التحويل الصوتي-النصي (ASR) الخاصة بالعبارات الحالية والماضية. تُعدّ النماذج الحالية لتصنيف أفعال المحادثة متعددة الوسائط محدودة بسبب نماذج الصوت غير الفعّالة ودمج الوسائط في مرحلة متأخرة. ونُظهر تحسينات كبيرة في تصنيف أفعال المحادثة متعددة الوسائط من خلال دمج الوسائط على مستوى أكثر دقة، ودمج التطورات الحديثة في النماذج اللغوية الكبيرة والنموذج الصوتي لاستخراج ميزات الصوت. كما نُجري دراسة معمقة لفعالية آليات الانتباه الذاتي (self-attention) والانتباه المتبادل (cross-attention) في نمذجة العبارات والمحادثات لتصنيف أفعال المحادثة. ونحقق زيادة ملحوظة قدرها 3 نقاط مئوية في معامل F1 مقارنةً بالنماذج الحالية الأفضل في مجالها على مجموعتي بيانات تصنيف أفعال المحادثة البارزتين، MRDA وEMOTyDA.
المعايير القياسية
| معيار قياسي | المنهجية | المقاييس |
|---|---|---|
| dialogue-act-classification-on-emotyda | Hierarchical Fusion | Accuracy: 63.42 |
| dialogue-act-classification-on-icsi-meeting | Hierarchical Fusion | Accuracy: 91.8 |
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.