HyperAIHyperAI

Command Palette

Search for a command to run...

تجاوز الحروف الصامتة: تعزيز نماذج اللغات الكبيرة في التعرف على العواطف من خلال الدقائق الصوتية

Zehui Wu Ziwei Gong Lin Ai Pengyuan Shi Kaan Donbekci Julia Hirschberg

الملخص

التعرف على العواطف في الكلام هو مهمة متعددة الوسائط صعبة تتطلب فهم المحتوى اللفظي والتفاصيل الصوتية. يقدم هذا البحث نهجًا جديدًا للكشف عن العواطف باستخدام نماذج اللغات الكبيرة (LLMs)، والتي أظهرت قدرات استثنائية في فهم اللغة الطبيعية. للقضاء على القيد الأساسي لنماذج اللغات الكبيرة في معالجة المدخلات الصوتية، نقترح طريقة تُسمى SpeechCueLLM، وهي تقوم بترجمة خصائص الكلام إلى وصف بلغة طبيعية، مما يتيح لنماذج اللغات الكبيرة إجراء تحليل عاطفي متعدد الوسائط عبر تعليمات النص دون أي تغييرات هندسية. يعتبر نهجنا بسيطًا ولكنه ذو تأثير كبير، حيث يتفوق على النماذج الأساسية التي تتطلب تعديلات هيكلية. نقيم طريقة SpeechCueLLM على مجموعتين من البيانات: IEMOCAP و MELD، مما يظهر تحسينات كبيرة في دقة التعرف على العواطف، خاصة بالنسبة للمعلومات الصوتية عالية الجودة. كما نستكشف فعالية تمثيلات الخصائص المختلفة واستراتيجيات التعديل الدقيق لنماذج اللغات الكبيرة المختلفة. تُظهر تجاربنا أن دمج وصف الكلام يؤدي إلى زيادة تزيد عن 2% في متوسط درجة F1 الموزونة على IEMOCAP (من 70.111% إلى 72.596%).


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp