MIntRec: مجموعة بيانات جديدة للاعتراف بالنية متعددة الوسائط

التعرف على النوايا متعددة الوسائط هو مهمة مهمة لفهم اللغة البشرية في مشاهد متعددة الوسائط الحقيقية. ومع ذلك، فإن معظم الطرق الحالية للتعرف على النوايا تواجه قيودًا في الاستفادة من المعلومات المتعددة الوسائط بسبب قيود مجموعات البيانات المرجعية التي تحتوي فقط على معلومات نصية. يقدم هذا البحث مجموعة بيانات جديدة للتعرف على النوايا متعددة الوسائط (MIntRec) لمعالجة هذه المشكلة. تم وضع تصنيفات خشنة ودقيقة للنوايا بناءً على البيانات المجمعة من المسلسل التلفزيوني "سوبرستور" (Superstore). تتكون المجموعة من 2,224 عينة عالية الجودة تشمل وسائط النص والفيديو والصوت، ولديها تسميات متعددة الوسائط ضمن عشرين فئة نية. بالإضافة إلى ذلك، نوفر صناديق حصرية مُشَرَّحة للتحدثين في كل قطعة فيديو ونحقق عملية تسمية التحدثين بشكل آلي. تعتبر MIntRec مفيدة للباحثين لاستخراج العلاقات بين الوسائط المختلفة لتعزيز قدرة التعرف على النوايا. نستخرج الخصائص من كل وسيلة ونمذج التفاعلات عبر الوسائط عن طريق تكييف ثلاث طرق اندماج متعدد الوسائط قوية لبناء خطوط أساس. أظهرت التجارب الشاملة أن استخدام الوسائط غير اللفظية يحقق تحسينات كبيرة مقارنة بالوسيلة النصية فقط، مما يدل على فعالية استخدام المعلومات المتعددة الوسائط للتعرف على النوايا. الفجوة بين أفضل الأساليب وأداء البشر تعكس تحدي وأهمية هذه المهمة للمجتمع العلمي. يمكن الوصول إلى المجموعة الكاملة من البيانات والأكواد للاستخدام في https://github.com/thuiar/MIntRec.