فهم المحادثة باستخدام الشبكات العصبية الرسومية الزمنية ذات العلاقات مع تفاعل مساعد عبر الوسائط

تمثّل اعتراف العواطف مهمة أساسية لفهم المحادثات البشرية. وتصبح هذه المهمة أكثر تعقيدًا مع ظهور مفهوم البيانات متعددة الوسائط، مثل اللغة، والصوت، والتعبيرات الوجهية. كحل نموذجي، يتم استغلال المعلومات المتعلقة بالسياق العام والسياق المحلي للتنبؤ بلبّ العاطفة لكل جملة منفردة، أي تعبير، في المحادثة. وبشكل خاص، يمكن التقاط التمثيل العام من خلال نمذجة التفاعلات عبر الوسائط على مستوى المحادثة. في المقابل، يُستمد التمثيل المحلي غالبًا باستخدام المعلومات الزمنية للمتحدثين أو التغيرات العاطفية، وهو ما يتجاهل عوامل حيوية على مستوى التعبير. علاوة على ذلك، تأخذ معظم الطرق الحالية ميزات مدمجة من وسائط متعددة في مدخل موحد دون استغلال التمثيلات المخصصة لكل وسيلة. مستلهمين من هذه المشكلات، نقترح إطارًا جديدًا للشبكة العصبية يُدعى الشبكة العصبية الرسومية الزمنية ذات التفاعل المتعلق عبر الوسائط مع تفاعل إضافي عبر الوسائط (CORECT)، والذي يُمكّن من التقاط التفاعلات عبر الوسائط على مستوى المحادثة والاعتماديات الزمنية على مستوى التعبير بطريقة مخصصة لكل وسيلة، بهدف تحسين فهم المحادثات. وقد أظهرت التجارب الواسعة فعالية CORECT من خلال نتائجه المتميزة على مجموعتي بيانات IEMOCAP وCMU-MOSEI في مهمة التعرف على العواطف متعددة الوسائط.