مجموعة بيانات حوار التعرف على النوايا متعدد الوسائط MIntRec2.0
التاريخ
رابط النشر
الفئات
MIntRec2.0 عبارة عن مجموعة بيانات مرجعية متعددة الوسائط ومتعددة الأطراف واسعة النطاق اقترحتها جامعة تسينغهوا وآخرون، والتي تُستخدم خصيصًا لتحديد النية في المحادثات واكتشاف المحتوى غير المقصود. بالمقارنة مع MIntRec السابق، زاد حجم البيانات في MIntRec2.0 إلى 15 ألفًا، وتغطي 30 فئة من النية، وتحتوي على ما يقرب من 9.3 ألف جملة توضيحية متعمدة و5.7 ألف جملة توضيحية غير متعمدة، وتتضمن وسائط متعددة مثل النص والفيديو والصوت.
تتكون مجموعة البيانات من 1245 حوارًا، كل منها يحتوي على متوسط 12 جملة. يتم تصنيف كل جملة حسب القصد، وكل حوار يتضمن متحدثين اثنين على الأقل، مع تصنيف جميع الجمل حسب هوية المتحدث. بالإضافة إلى ذلك، لتلبية احتياجات سيناريوهات العالم المفتوح، يقدم MIntRec2.0 علامات OOS لتحديد الجمل التي لا تنتمي إلى فئات النية المعروفة لتعزيز قوة النظام. تهدف مجموعة البيانات هذه إلى تعزيز الأبحاث المتعلقة بفهم النية المتعددة الوسائط ووضع أساس متين لتحقيق تفاعل أكثر طبيعية بين الإنسان والحاسوب مما يؤدي إلى الذكاء الاصطناعي العام.