HyperAIHyperAI
منذ 11 أيام

الدمج الهرمي لتصنيف أفعال المحادثة متعددة الوسائط عبر الإنترنت

{Ruihong Huang, Adarsh Pyarelal, Md Messal Monem Miah}
الدمج الهرمي لتصنيف أفعال المحادثة متعددة الوسائط عبر الإنترنت
الملخص

نُقدِّم إطارًا لتصنيف أفعال المحادثة متعددة الوسائط في الوقت الفعلي بناءً على الصوت الخام ونصوص التحويل الصوتي-النصي (ASR) الخاصة بالعبارات الحالية والماضية. تُعدّ النماذج الحالية لتصنيف أفعال المحادثة متعددة الوسائط محدودة بسبب نماذج الصوت غير الفعّالة ودمج الوسائط في مرحلة متأخرة. ونُظهر تحسينات كبيرة في تصنيف أفعال المحادثة متعددة الوسائط من خلال دمج الوسائط على مستوى أكثر دقة، ودمج التطورات الحديثة في النماذج اللغوية الكبيرة والنموذج الصوتي لاستخراج ميزات الصوت. كما نُجري دراسة معمقة لفعالية آليات الانتباه الذاتي (self-attention) والانتباه المتبادل (cross-attention) في نمذجة العبارات والمحادثات لتصنيف أفعال المحادثة. ونحقق زيادة ملحوظة قدرها 3 نقاط مئوية في معامل F1 مقارنةً بالنماذج الحالية الأفضل في مجالها على مجموعتي بيانات تصنيف أفعال المحادثة البارزتين، MRDA وEMOTyDA.

الدمج الهرمي لتصنيف أفعال المحادثة متعددة الوسائط عبر الإنترنت | أحدث الأوراق البحثية | HyperAI