HyperAIHyperAI

Command Palette

Search for a command to run...

التحليل متعدد الوسائط للغة في البيئة الطبيعية: مجموعة بيانات CMU-MOSEI والرسم البياني الديناميكي القابل للتفسير للدمج

Louis-Philippe Morency AmirAli Bagher Zadeh Soujanya Poria Paul Pu Liang Erik Cambria

الملخص

تحليل اللغة متعددة الوسائط البشرية يُعد مجالًا بحثيًا ناشئًا في معالجة اللغة الطبيعية (NLP). وبشكل أساسي، تتميز هذه اللغة بكونها متعددة الوسائط (متنوعة المكونات)، تسلسلية، وغير متماسكة زمنيًا؛ إذ تتكوّن من وسائط متعددة تشمل اللغة (الكلمات)، والمرئيات (التعبيرات)، والصوتية (السياقات الصوتية)، جميعها مُنظَّمة في تسلسلات متماسكة ولكن غير متماثلة زمنيًا. من منظور الموارد، هناك حاجة حقيقية إلى مجموعات بيانات ضخمة تتيح إجراء دراسات متعمقة على هذا الشكل من اللغة. في هذا البحث، نقدّم مجموعة بيانات CMU Multimodal Opinion Sentiment and Emotion Intensity (CMU-MOSEI)، وهي أكبر مجموعة بيانات مُخصّصة لتحليل المشاعر وتحديد المشاعر حتى تاريخه. باستخدام بيانات CMU-MOSEI وتقنية جديدة لدمج الوسائط تُسمّى "الرسم البياني للدمج الديناميكي" (Dynamic Fusion Graph - DFG)، نُجري تجارب لاستكشاف كيفية تفاعل الوسائط مع بعضها في اللغة البشرية متعددة الوسائط. على عكس تقنيات الدمج المُقترحة سابقًا، فإن DFG تتميز بقابلية تفسير عالية، وتُحقّق أداءً تنافسيًا مقارنةً بأفضل النماذج السابقة.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp