OpenViDial 2.0: مجموعة بيانات أكبر حجمًا لإنشاء حوار في مجالات مفتوحة مع سياقات بصرية

من أجل محاكاة عملية المحادثة البشرية الحقيقية بشكل أفضل، يجب على النماذج أن تولد خطابات حوارية بناءً ليس فقط على السياقات النصية السابقة ولكن أيضًا على السياقات البصرية. ومع ذلك، مع تطور تعلم الحوار متعدد الوسائط، أصبح حجم مجموعة البيانات تدريجيًا عقبة. في هذا التقرير، نطلق OpenViDial 2.0، وهي مجموعة بيانات حوارية متعددة الوسائط ومفتوحة المجال بحجم أكبر مقارنة بالنسخة السابقة OpenViDial 1.0. تحتوي OpenViDial 2.0 على إجمالي 5.6 مليون دورة حوار تم استخراجها من أفلام أو مسلسلات تلفزيونية مختلفة من مصادر مختلفة، وتم ربط كل دورة حوار بسياقها البصري المقابل. نأمل أن يساعد هذا الحجم الكبير من مجموعة البيانات في تسهيل الأبحاث المستقبلية حول توليد الحوار المفتوح المجال والمتنوع الوسائط، مثل التدريب السابق متعدد الوسائط لتوليد الحوار (multi-modal pretraining for dialogue generation).