GigaSpeech: مجموعة صوتية لتقنيات التعرف على الكلام متعددة المجالات قابلة للتطور، تحتوي على 10,000 ساعة من الصوت المُدوَّن

يُقدّم هذا البحث Corpus GigaSpeech، وهو مجموعة بيانات صوتية إنجليزية متعددة المجالات وقابلة للتطور، تضم 10,000 ساعة من الصوت المُسجّل بجودة عالية ومنسق بعناية، مناسبة لتدريب النماذج المُراقبة، بالإضافة إلى 40,000 ساعة من الصوت الإجمالي، التي تُستخدم في التدريب شبه المُراقب والغير مُراقب. تم جمع حوالي 40,000 ساعة من الصوت المُدوّن من مصادر متعددة مثل الكتب الصوتية (audiobooks)، والبودكاست، ويوتيوب، لتغطية أنماط مختلفة من الحديث، سواء كان قراءة مكتوبة أو تحدثًا طبيعياً، وتشمل مجموعة واسعة من المواضيع مثل الفنون، والعلوم، والرياضة، وغيرها. كما تم اقتراح خط أنابيب جديد للمحاذاة القسرية (forced alignment) والتقسيم (segmentation) لإنشاء مقاطع جمل مناسبة لتدريب أنظمة التعرف على الصوت، وتصفية المقاطع التي تمتلك جودة منخفضة في التحويل النصي. وتوفّر مجموعة GigaSpeech خمسة مجموعات فرعية بحجم مختلف لتدريب النماذج: 10 ساعات، و250 ساعة، و1000 ساعة، و2500 ساعة، و10,000 ساعة. وبالنسبة إلى مجموعة التدريب الكبيرة (XL) التي تبلغ 10,000 ساعة، تم وضع حد أقصى لمعدل الخطأ الكلمي (Word Error Rate) عند 4% خلال مرحلة التصفية والتحقق، بينما تم تحديد الحد الأقصى عند 0% لكل المجموعات الأصغر الأخرى. أما مجموعتا التقييم (DEV و TEST)، فقد تم إعادة معالجتهما بواسطة محررين بشريين محترفين لضمان جودة عالية في التحويل النصي. كما تُقدّم أنظمة أساسية (baseline systems) متوافقة مع أدوات شهيرة في مجال التعرف على الصوت، مثل Athena، وESPnet، وKaldi، وPika.