منذ 8 أشهر

الملخص

من أجل محاكاة عملية المحادثة البشرية الحقيقية بشكل أفضل، يجب على النماذج أن تولد خطابات حوارية بناءً ليس فقط على السياقات النصية السابقة ولكن أيضًا على السياقات البصرية. ومع ذلك، مع تطور تعلم الحوار متعدد الوسائط، أصبح حجم مجموعة البيانات تدريجيًا عقبة. في هذا التقرير، نطلق OpenViDial 2.0، وهي مجموعة بيانات حوارية متعددة الوسائط ومفتوحة المجال بحجم أكبر مقارنة بالنسخة السابقة OpenViDial 1.0. تحتوي OpenViDial 2.0 على إجمالي 5.6 مليون دورة حوار تم استخراجها من أفلام أو مسلسلات تلفزيونية مختلفة من مصادر مختلفة، وتم ربط كل دورة حوار بسياقها البصري المقابل. نأمل أن يساعد هذا الحجم الكبير من مجموعة البيانات في تسهيل الأبحاث المستقبلية حول توليد الحوار المفتوح المجال والمتنوع الوسائط، مثل التدريب السابق متعدد الوسائط لتوليد الحوار (multi-modal pretraining for dialogue generation).

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار