HyperAIHyperAI
منذ 2 أشهر

مجموعة بيانات حوار ستاتكان: استرجاع جداول البيانات من خلال المحادثات ذات النوايا الحقيقية

Xing Han Lu; Siva Reddy; Harm de Vries
مجموعة بيانات حوار ستاتكان: استرجاع جداول البيانات من خلال المحادثات ذات النوايا الحقيقية
الملخص

نقدم مجموعة بيانات حوارية من الإحصاء الكندي (StatCan Dialogue Dataset) التي تتكون من 19,379 دورة حوار بين وكلاء يعملون في مكتب الإحصاء الكندي (Statistics Canada) ومستخدمين عبر الإنترنت يبحثون عن جداول البيانات المنشورة. تنشأ هذه الحوارات من نوايا حقيقية، وتجرى باللغة الإنجليزية أو الفرنسية، وتؤدي إلى استرجاع أحد أكثر من 5000 جدول بيانات معقد. بناءً على هذه المجموعة من البيانات، نقترح مهامين: (1) استرجاع آلي للجداول ذات الصلة بناءً على الحوار الجارٍ، و(2) إنشاء آلي لردود الوكلاء المناسبة في كل دورة. نستكشف صعوبة كل مهمة من خلال إنشاء خطوط أساس قوية. تجاربنا على تقسيم البيانات الزمني تكشف أن جميع النماذج تجد صعوبة في التعميم إلى الحوارات المستقبلية، حيث نلاحظ انخفاضًا كبيرًا في الأداء في كلا المهمتين عند الانتقال من مجموعة التحقق إلى مجموعة الاختبار. بالإضافة إلى ذلك، نجد أن نماذج إنشاء الردود تجد صعوبة في تحديد الوقت المناسب لإرجاع جدول. بالنظر إلى أن هذه المهام تمثل تحديات كبيرة للنماذج الحالية، فإننا نشجع المجتمع على تطوير نماذج لمهمتنا، والتي يمكن استخدامها مباشرة لمساعدة العاملين بالمعرفة في العثور على الجداول ذات الصلة للمستخدمين الذين يشاركون في الدردشة المباشرة.

مجموعة بيانات حوار ستاتكان: استرجاع جداول البيانات من خلال المحادثات ذات النوايا الحقيقية | أحدث الأوراق البحثية | HyperAI