HyperAIHyperAI
منذ 11 أيام

100,000 بودكاست: مجموعة وثائقية للغة الإنجليزية المنطوقة

{Rosie Jones, Ben Carterette, Jussi Karlgren, Gareth Jones, Maria Eskevich, Hamed Bonab, Rezvaneh Rezapour, Aasish Pappu, Yongze Yu, Sravana Reddy, Ann Clifton}
100,000 بودكاست: مجموعة وثائقية للغة الإنجليزية المنطوقة
الملخص

البودكاستات تمثل مخزونًا كبيرًا ومتزايدًا للصوت المُتحدث. وبصفتها شكلًا صوتيًا، تتفوق البودكاستات في التنوّع من حيث الأسلوب وأنواع الإنتاج مقارنةً بالأخبار المُذاعَة، وتحتوي على عدد أكبر من الأنواع مقارنةً بالبيانات المرئية التي تُدرس عادةً، كما أنها أكثر تنوعًا من حيث الأسلوب والشكل مقارنةً بالقواعد السابقة للمحادثات. عند تحويلها إلى نص باستخدام تقنية التعرف التلقائي على الكلام، تمثل مجموعة ضجيجية ولكنها مثيرة للاهتمام من الوثائق التي يمكن دراستها من منظور معالجة اللغة الطبيعية واسترجاع المعلومات واللغويات. وبالإضافة إلى الملفات الصوتية المرافقة، تُعدّ أيضًا موردًا لمعالجة الصوت ودراسة الجوانب البَرَّا-لغوية واللغوية الاجتماعية والصوتية في هذا المجال. نقدّم هنا مجموعة بودكاست Spotify، وهي مجموعة جديدة تتضمن 100,000 بودكاست. ونُظهر تعقيد هذا المجال من خلال دراسة حالة لمهامتين: (1) البحث في المقاطع، و(2) التلخيص. وتُعدّ هذه المجموعة أكبر بمرات عديدة من أي مجموعة صوتية سابقة استُخدمت في المهام المتعلقة بالبحث والتلخيص. وتُظهر نتائجنا أن الحجم والتنوع الكبيرين لهذه المجموعة يفتحان آفاقًا جديدة للبحث.

100,000 بودكاست: مجموعة وثائقية للغة الإنجليزية المنطوقة | أحدث الأوراق البحثية | HyperAI