SLUE: مهام جديدة لاختبار فهم اللغة الصوتية على الكلام الطبيعي

أُسهم التقدم في معالجة الكلام بفضل توفر مجموعات بيانات مشتركة والاختبارات المعيارية. ورغم أن هذه المجموعات ركزت تاريخياً على مهام معالجة الكلام منخفضة المستوى، مثل التعرف التلقائي على الكلام (ASR) أو تحديد المتكلم، إلا أن الاهتمام بدأ يزداد تجاه المهام الأعلى مستوى في فهم اللغة الشفهية، بما في ذلك استخدام النماذج النهائية (end-to-end)، لكنها ما زالت تعاني من قلة المجموعات المُعلَّمة لهذا الغرض. وفي الوقت نفسه، أظهرت أبحاث حديثة إمكانية تدريب تمثيلات عامة (pre-training) ثم تحسينها (fine-tuning) لعدد من المهام باستخدام كميات صغيرة نسبياً من البيانات المُعلَّمة. نقترح إنشاء مجموعة من مهام الاختبار لتقييم فهم اللغة الشفهية (SLUE)، تتألف من مجموعات تدريب محدودة الحجم ومجموعات تقييم مُقابلة لها. سيتيح هذا المورد للمجتمع البحثي تتبع التقدم، وتقييم التمثيلات المُدرَّبة مسبقاً في المهام الأعلى مستوى، ودراسة أسئلة مفتوحة مثل فائدة النهج المتسلسل (pipeline) مقارنة بالنماذج النهائية. نقدّم المرحلة الأولى من مجموعة اختبار SLUE، والتي تتضمن التعرف على الكيانات الاسمية، وتحليل المشاعر، والتعرف التلقائي على الكلام على البيانات المقابلة. ونركّز على الكلام الطبيعي (وليس القارئ أو المُولّد اصطناعياً)، ونستخدم مجموعات بيانات متاحة مجاناً. ونقدّم نصوصاً جديدة وتعليقات مُعدّة على أجزاء من مجموعتي بيانات VoxCeleb وVoxPopuli، بالإضافة إلى مقاييس تقييم ونتائج النماذج الأساسية، وأداة مفتوحة المصدر تُمكّن من إعادة إنتاج النماذج الأساسية وتقييم النماذج الجديدة.