HyperAIHyperAI
منذ 17 أيام

GigaSpeech: مجموعة صوتية لتقنيات التعرف على الكلام متعددة المجالات قابلة للتطور، تحتوي على 10,000 ساعة من الصوت المُدوَّن

Guoguo Chen, Shuzhou Chai, Guanbo Wang, Jiayu Du, Wei-Qiang Zhang, Chao Weng, Dan Su, Daniel Povey, Jan Trmal, Junbo Zhang, Mingjie Jin, Sanjeev Khudanpur, Shinji Watanabe, Shuaijiang Zhao, Wei Zou, Xiangang Li, Xuchen Yao, Yongqing Wang, Yujun Wang, Zhao You, Zhiyong Yan
GigaSpeech: مجموعة صوتية لتقنيات التعرف على الكلام متعددة المجالات قابلة للتطور، تحتوي على 10,000 ساعة من الصوت المُدوَّن
الملخص

يُقدّم هذا البحث Corpus GigaSpeech، وهو مجموعة بيانات صوتية إنجليزية متعددة المجالات وقابلة للتطور، تضم 10,000 ساعة من الصوت المُسجّل بجودة عالية ومنسق بعناية، مناسبة لتدريب النماذج المُراقبة، بالإضافة إلى 40,000 ساعة من الصوت الإجمالي، التي تُستخدم في التدريب شبه المُراقب والغير مُراقب. تم جمع حوالي 40,000 ساعة من الصوت المُدوّن من مصادر متعددة مثل الكتب الصوتية (audiobooks)، والبودكاست، ويوتيوب، لتغطية أنماط مختلفة من الحديث، سواء كان قراءة مكتوبة أو تحدثًا طبيعياً، وتشمل مجموعة واسعة من المواضيع مثل الفنون، والعلوم، والرياضة، وغيرها. كما تم اقتراح خط أنابيب جديد للمحاذاة القسرية (forced alignment) والتقسيم (segmentation) لإنشاء مقاطع جمل مناسبة لتدريب أنظمة التعرف على الصوت، وتصفية المقاطع التي تمتلك جودة منخفضة في التحويل النصي. وتوفّر مجموعة GigaSpeech خمسة مجموعات فرعية بحجم مختلف لتدريب النماذج: 10 ساعات، و250 ساعة، و1000 ساعة، و2500 ساعة، و10,000 ساعة. وبالنسبة إلى مجموعة التدريب الكبيرة (XL) التي تبلغ 10,000 ساعة، تم وضع حد أقصى لمعدل الخطأ الكلمي (Word Error Rate) عند 4% خلال مرحلة التصفية والتحقق، بينما تم تحديد الحد الأقصى عند 0% لكل المجموعات الأصغر الأخرى. أما مجموعتا التقييم (DEV و TEST)، فقد تم إعادة معالجتهما بواسطة محررين بشريين محترفين لضمان جودة عالية في التحويل النصي. كما تُقدّم أنظمة أساسية (baseline systems) متوافقة مع أدوات شهيرة في مجال التعرف على الصوت، مثل Athena، وESPnet، وKaldi، وPika.

GigaSpeech: مجموعة صوتية لتقنيات التعرف على الكلام متعددة المجالات قابلة للتطور، تحتوي على 10,000 ساعة من الصوت المُدوَّن | أحدث الأوراق البحثية | HyperAI