100,000 بودكاست: مجموعة وثائقية للغة الإنجليزية المنطوقة

البودكاستات تمثل مخزونًا كبيرًا ومتزايدًا للصوت المُتحدث. وبصفتها شكلًا صوتيًا، تتفوق البودكاستات في التنوّع من حيث الأسلوب وأنواع الإنتاج مقارنةً بالأخبار المُذاعَة، وتحتوي على عدد أكبر من الأنواع مقارنةً بالبيانات المرئية التي تُدرس عادةً، كما أنها أكثر تنوعًا من حيث الأسلوب والشكل مقارنةً بالقواعد السابقة للمحادثات. عند تحويلها إلى نص باستخدام تقنية التعرف التلقائي على الكلام، تمثل مجموعة ضجيجية ولكنها مثيرة للاهتمام من الوثائق التي يمكن دراستها من منظور معالجة اللغة الطبيعية واسترجاع المعلومات واللغويات. وبالإضافة إلى الملفات الصوتية المرافقة، تُعدّ أيضًا موردًا لمعالجة الصوت ودراسة الجوانب البَرَّا-لغوية واللغوية الاجتماعية والصوتية في هذا المجال. نقدّم هنا مجموعة بودكاست Spotify، وهي مجموعة جديدة تتضمن 100,000 بودكاست. ونُظهر تعقيد هذا المجال من خلال دراسة حالة لمهامتين: (1) البحث في المقاطع، و(2) التلخيص. وتُعدّ هذه المجموعة أكبر بمرات عديدة من أي مجموعة صوتية سابقة استُخدمت في المهام المتعلقة بالبحث والتلخيص. وتُظهر نتائجنا أن الحجم والتنوع الكبيرين لهذه المجموعة يفتحان آفاقًا جديدة للبحث.