DebateSum: مجموعة بيانات كبيرة لاستخراج الحجج وتلخيصها

العمل السابق في مجال استخراج الحجج يشير غالبًا إلى تطبيقاته المحتملة في أنظمة المناظرات الآلية. ومع ذلك، فإن هناك تقريبًا عدم وجود مجموعات بيانات أو نماذج تطبق تقنيات معالجة اللغة الطبيعية على المشكلات الموجودة داخل المناظرات الرسمية التنافسية. لحل هذه المشكلة، نقدم مجموعة بيانات DebateSum. تتكون DebateSum من 187,386 قطعة دليل فريدة مع الحجج والملخصات الاستخراجية المقابلة لها. تم إنشاء DebateSum باستخدام البيانات التي جمعها المتنافسون ضمن الجمعية الوطنية للخطابة والمناظرة على مدى فترة سبع سنوات. ندرب عدة نماذج تحويلية للملخصات لتقييم أداء الملخصات على DebateSum. كما نقدم مجموعة من متجهات الكلمات fasttext مدربة على DebateSum وتُعرف بـ debate2vec (ديبتي2فيك). وأخيرًا، نقدم محرك بحث لهذه المجموعة من البيانات يستخدم بشكل واسع من قبل أعضاء الجمعية الوطنية للخطابة والمناظرة حاليًا. يمكن الوصول إلى محرك البحث DebateSum العام هنا: http://www.debate.cards