HyperAIHyperAI

Command Palette

Search for a command to run...

OpenViDial 2.0: مجموعة بيانات أكبر حجمًا لإنشاء حوار في مجالات مفتوحة مع سياقات بصرية

Shuhe Wang Yuxian Meng Xiaoya Li Xiaofei Sun Rongbin Ouyang Jiwei Li

الملخص

من أجل محاكاة عملية المحادثة البشرية الحقيقية بشكل أفضل، يجب على النماذج أن تولد خطابات حوارية بناءً ليس فقط على السياقات النصية السابقة ولكن أيضًا على السياقات البصرية. ومع ذلك، مع تطور تعلم الحوار متعدد الوسائط، أصبح حجم مجموعة البيانات تدريجيًا عقبة. في هذا التقرير، نطلق OpenViDial 2.0، وهي مجموعة بيانات حوارية متعددة الوسائط ومفتوحة المجال بحجم أكبر مقارنة بالنسخة السابقة OpenViDial 1.0. تحتوي OpenViDial 2.0 على إجمالي 5.6 مليون دورة حوار تم استخراجها من أفلام أو مسلسلات تلفزيونية مختلفة من مصادر مختلفة، وتم ربط كل دورة حوار بسياقها البصري المقابل. نأمل أن يساعد هذا الحجم الكبير من مجموعة البيانات في تسهيل الأبحاث المستقبلية حول توليد الحوار المفتوح المجال والمتنوع الوسائط، مثل التدريب السابق متعدد الوسائط لتوليد الحوار (multi-modal pretraining for dialogue generation).


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
OpenViDial 2.0: مجموعة بيانات أكبر حجمًا لإنشاء حوار في مجالات مفتوحة مع سياقات بصرية | مستندات | HyperAI