منذ 7 أشهر

الملخص

نُقدِّم إطارًا لتصنيف أفعال المحادثة متعددة الوسائط في الوقت الفعلي بناءً على الصوت الخام ونصوص التحويل الصوتي-النصي (ASR) الخاصة بالعبارات الحالية والماضية. تُعدّ النماذج الحالية لتصنيف أفعال المحادثة متعددة الوسائط محدودة بسبب نماذج الصوت غير الفعّالة ودمج الوسائط في مرحلة متأخرة. ونُظهر تحسينات كبيرة في تصنيف أفعال المحادثة متعددة الوسائط من خلال دمج الوسائط على مستوى أكثر دقة، ودمج التطورات الحديثة في النماذج اللغوية الكبيرة والنموذج الصوتي لاستخراج ميزات الصوت. كما نُجري دراسة معمقة لفعالية آليات الانتباه الذاتي (self-attention) والانتباه المتبادل (cross-attention) في نمذجة العبارات والمحادثات لتصنيف أفعال المحادثة. ونحقق زيادة ملحوظة قدرها 3 نقاط مئوية في معامل F1 مقارنةً بالنماذج الحالية الأفضل في مجالها على مجموعتي بيانات تصنيف أفعال المحادثة البارزتين، MRDA وEMOTyDA.

ملف PDF المصدر عرض الكود

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار