HyperAIHyperAI
منذ 2 أشهر

الcorpัส الحواري Ubuntu: مجموعة بيانات كبيرة للبحث في أنظمة الحوار غير المهيكلة متعددة الدورات

Ryan Lowe; Nissan Pow; Iulian Serban; Joelle Pineau
الcorpัส الحواري Ubuntu: مجموعة بيانات كبيرة للبحث في أنظمة الحوار غير المهيكلة متعددة الدورات
الملخص

يقدم هذا البحث مجموعات بيانات حوارية أوبونتو (Ubuntu Dialogue Corpus)، وهي مجموعة بيانات تحتوي على ما يقارب المليون حوار متعدد الدورات، بإجمالي أكثر من سبعة ملايين جملة ومائة مليون كلمة. توفر هذه المجموعة مصدرًا فريدًا للبحث في بناء مديري الحوار المستندين إلى نماذج اللغة العصبية التي يمكنها الاستفادة من كميات كبيرة من البيانات غير المصنفة. تتميز هذه المجموعة بالخواص المتعددة الدورات للحوارات في مجموعات بيانات تحدي تتبع حالة الحوار (Dialog State Tracking Challenge) وبطبيعة التفاعلات غير المنظمة من خدمات المدونات الصغيرة مثل تويتر (Twitter). كما نصف أيضًا هندستين تعلم عصبيتين مناسبتين لتحليل هذه المجموعة، ونقدم أداءً قياسيًا في مهمة اختيار أفضل رد التالي.