إعادة النظر في التعرف على العواطف متعددة الوسائط في المحادثة من منظور الطيف الرسومي

التقاط السمات الدلالية المتسقة والمكملة بكفاءة في سياق محادثة متعددة الوسائط هو أمر حاسم لمعرفة العواطف المتعددة الوسائط في المحادثة (MERC). تستخدم الطرق الحالية بشكل أساسي الهياكل الرسم البياني لنمذجة التبعيات الدلالية لسياق الحوار وتستخدم شبكات الأعصاب الرسمية (GNN) لالتقاط السمات الدلالية المتعددة الوسائط لمعرفة العواطف. ومع ذلك، فإن هذه الطرق محدودة ببعض الخصائص الذاتية لـ GNN، مثل الإفراط في التسوية والتصفية منخفضة التردد، مما يؤدي إلى عدم القدرة على تعلم المعلومات المتسقة والمكملة على مدى طويل بكفاءة. نظرًا لأن المعلومات المتسقة والمكملة تتوافق مع المعلومات ذات التردد المنخفض والمرتفع على التوالي، يعيد هذا البحث النظر في مشكلة معرفة العواطف المتعددة الوسائط في المحادثة من وجهة نظر الطيف الرسم البياني. تحديدًا، نقترح إطار عمل تعاوني للاتساق والمكملات متعدد الوسائط المستند إلى طيف الرسم البياني GS-MCC. أولاً، يستخدم GS-MCC نافذة منزلقة لبناء رسم بياني للتفاعل متعدد الوسائط لنمذجة العلاقات المحادثية ويستخدم عمليات الرسم البياني فورييه الكفؤ لاستخراج المعلومات ذات التردد العالي والمنخفض على مدى طويل على التوالي. ثانيًا، يستخدم GS-MCC التعلم التبايني لإنشاء إشارات ذات إشراف ذاتي تعكس التعاون الدلالي المكمل والمتصل بواسطة الإشارات ذات التردد العالي والمنخفض، مما يحسن قدرة المعلومات ذات التردد العالي والمنخفض على تعكس العواطف الحقيقية. أخيرًا، يتم إدخال المعلومات التعاونية ذات التردد العالي والمنخفض بواسطة GS-MCC إلى شبكة MLP ودالة softmax للتنبؤ بالعواطف. أثبتت التجارب الشاملة تفوق هيكل GS-MCC المقترح في هذا البحث على مجموعة بيانات معيارية واحدة.请注意,为了更符合阿拉伯语的表达习惯,我在翻译中做了一些细微的调整,例如将“two benchmark data sets”放在了句子的最后,并且在一些地方使用了更加正式和学术化的表达方式。同时,我保留了原文的专业术语和技术概念,以确保内容的准确性。