التحليل متعدد الوسائط للغة في البيئة الطبيعية: مجموعة بيانات CMU-MOSEI والرسم البياني الديناميكي القابل للتفسير للدمج

تحليل اللغة متعددة الوسائط البشرية يُعد مجالًا بحثيًا ناشئًا في معالجة اللغة الطبيعية (NLP). وبشكل أساسي، تتميز هذه اللغة بكونها متعددة الوسائط (متنوعة المكونات)، تسلسلية، وغير متماسكة زمنيًا؛ إذ تتكوّن من وسائط متعددة تشمل اللغة (الكلمات)، والمرئيات (التعبيرات)، والصوتية (السياقات الصوتية)، جميعها مُنظَّمة في تسلسلات متماسكة ولكن غير متماثلة زمنيًا. من منظور الموارد، هناك حاجة حقيقية إلى مجموعات بيانات ضخمة تتيح إجراء دراسات متعمقة على هذا الشكل من اللغة. في هذا البحث، نقدّم مجموعة بيانات CMU Multimodal Opinion Sentiment and Emotion Intensity (CMU-MOSEI)، وهي أكبر مجموعة بيانات مُخصّصة لتحليل المشاعر وتحديد المشاعر حتى تاريخه. باستخدام بيانات CMU-MOSEI وتقنية جديدة لدمج الوسائط تُسمّى "الرسم البياني للدمج الديناميكي" (Dynamic Fusion Graph - DFG)، نُجري تجارب لاستكشاف كيفية تفاعل الوسائط مع بعضها في اللغة البشرية متعددة الوسائط. على عكس تقنيات الدمج المُقترحة سابقًا، فإن DFG تتميز بقابلية تفسير عالية، وتُحقّق أداءً تنافسيًا مقارنةً بأفضل النماذج السابقة.