TelME: شبكة دمج متعددة الوسائط بقيادة المعلم للاعتراف بالعواطف في المحادثة

التعرف على العواطف في المحادثة (ERC) يلعب دورًا مهمًا في تمكين أنظمة الحوار من الرد بفعالية على طلبات المستخدم. يمكن تحديد العواطف في المحادثة من خلال التمثيلات المنبثقة من وسائط مختلفة، مثل الصوتية والبصرية والنصية. ومع ذلك، بسبب الإسهام الضعيف للوسائط غير اللفظية في التعرف على العواطف، فإن التعرف على العواطف متعدد الوسائط دائمًا ما يعتبر مهمة صعبة. في هذا البحث، نقترح شبكة الاندماج متعددة الوسائط تحت قيادة المعلم لـ ERC (TelME). تدمج TelME تقنية التقطير المعرفي عبر الوسائط لنقل المعلومات من نموذج اللغة الذي يعمل كمعلم إلى الطلاب غير اللفظيين، مما يحسن فعالية الوسائط الضعيفة. ثم نجمع بين الخصائص متعددة الوسائط باستخدام نهج الاندماج المتحول، حيث تقوم شبكات الطلاب بدعم المعلم. تحقق TelME أداءً رائدًا في مجموعة بيانات MELD لمحادثات متعددة المتحدثين لـ ERC. وأخيرًا، نثبت فعالية مكوناتنا من خلال تجارب إضافية.