تجاوز الحروف الصامتة: تعزيز نماذج اللغات الكبيرة في التعرف على العواطف من خلال الدقائق الصوتية

التعرف على العواطف في الكلام هو مهمة متعددة الوسائط صعبة تتطلب فهم المحتوى اللفظي والتفاصيل الصوتية. يقدم هذا البحث نهجًا جديدًا للكشف عن العواطف باستخدام نماذج اللغات الكبيرة (LLMs)، والتي أظهرت قدرات استثنائية في فهم اللغة الطبيعية. للقضاء على القيد الأساسي لنماذج اللغات الكبيرة في معالجة المدخلات الصوتية، نقترح طريقة تُسمى SpeechCueLLM، وهي تقوم بترجمة خصائص الكلام إلى وصف بلغة طبيعية، مما يتيح لنماذج اللغات الكبيرة إجراء تحليل عاطفي متعدد الوسائط عبر تعليمات النص دون أي تغييرات هندسية. يعتبر نهجنا بسيطًا ولكنه ذو تأثير كبير، حيث يتفوق على النماذج الأساسية التي تتطلب تعديلات هيكلية. نقيم طريقة SpeechCueLLM على مجموعتين من البيانات: IEMOCAP و MELD، مما يظهر تحسينات كبيرة في دقة التعرف على العواطف، خاصة بالنسبة للمعلومات الصوتية عالية الجودة. كما نستكشف فعالية تمثيلات الخصائص المختلفة واستراتيجيات التعديل الدقيق لنماذج اللغات الكبيرة المختلفة. تُظهر تجاربنا أن دمج وصف الكلام يؤدي إلى زيادة تزيد عن 2% في متوسط درجة F1 الموزونة على IEMOCAP (من 70.111% إلى 72.596%).