منذ 2 أشهر
مستودع مجموعات بيانات المحادثات
Matthew Henderson; Paweł Budzianowski; Iñigo Casanueva; Sam Coope; Daniela Gerz; Girish Kumar; Nikola Mrkšić; Georgios Spithourakis; Pei-Hao Su; Ivan Vulić; Tsung-Hsien Wen

الملخص
تقدم التعلم الآلي غالبًا بفضل توفر قواعد بيانات كبيرة ومعايير تقييم متسقة للمقارنة بين نماذج النمذجة. في هذا السياق، نقدم مستودعًا لقواعد البيانات الحوارية يحتوي على مئات الملايين من الأمثلة، وإجراء تقييم معياري لنماذج اختيار الردود الحوارية باستخدام دقة "1 من 100" (1-of-100 accuracy). يحتوي المستودع على سكريبتات تتيح للباحثين إعادة إنتاج القواعد البيانات القياسية أو تعديل خطوات المعالجة السابقة وتصفية البيانات حسب احتياجاتهم. نقدم أيضًا ونقيم عدة أسس تنافسية لاختيار الردود الحوارية، والتي يتم مشاركة تنفيذها في المستودع، بالإضافة إلى نموذج كودير عصبي يتم تدريبه على مجموعة التدريب الكاملة.