HyperAIHyperAI
منذ 11 أيام

GA2MIF: دمج متعدد المصادر على مرحلتين يعتمد على الرسم البياني والانتباه للكشف عن المشاعر في المحادثات

Jiang Li, Xiaoping Wang, Guoqing Lv, Zhigang Zeng
GA2MIF: دمج متعدد المصادر على مرحلتين يعتمد على الرسم البياني والانتباه للكشف عن المشاعر في المحادثات
الملخص

يُعد التعرف متعدد الوسائط على المشاعر في المحادثات (ERC) دورًا مؤثرًا في مجال التفاعل البشري-الآلي والروبوتات الحوارية، حيث يمكنه تحفيز الآلات على تقديم خدمات تتماشى مع المشاعر. تُعد نمذجة البيانات متعددة الوسائط مجالًا بحثيًا ناشئًا في السنوات الأخيرة، مستوحاة من قدرة الإنسان على دمج الحواس المختلفة. ورغم أن عدة مناهج قائمة على الرسوم البيانية تدّعي القدرة على التقاط المعلومات التفاعلية بين الوسائط، إلا أن التباين في البيانات متعددة الوسائط يحول دون تحقيق حلول مثلى. في هذا العمل، نقدم منهجًا جديدًا للدمج متعدد الوسائط يُسمى "دمج المعلومات متعددة المصادر ثنائي المرحلة القائم على الرسم البياني والانتباه" (GA2MIF) للكشف عن المشاعر في المحادثات. يتجاوز المنهج المقترح مشكلة استخدام الرسوم البيانية غير الموحدة كمدخلات للنموذج، كما يُزيل الاتصالات الزائدة المعقدة في بناء الرسوم البيانية. يركز GA2MIF على نمذجة السياق ونمذجة التفاعل بين الوسائط من خلال استخدام شبكات الانتباه الموجهة ذات الرؤوس المتعددة (MDGATs) وشبكات الانتباه المزدوجة بين الوسائط ذات الرؤوس المتعددة (MPCATs) على التوالي. وقد أظهرت التجارب الواسعة على مجموعتي بيانات عامتين (ألا وهي IEMOCAP وMELD) أن GA2MIF يتمتع بالقدرة على التقاط المعلومات السياقية الطويلة المدى داخل الوسائط والمعلومات التكميلية بين الوسائط بفعالية، كما يتفوق على النماذج الرائدة (SOTA) الحالية بفارق كبير.

GA2MIF: دمج متعدد المصادر على مرحلتين يعتمد على الرسم البياني والانتباه للكشف عن المشاعر في المحادثات | أحدث الأوراق البحثية | HyperAI