الملخص

يُقدّم هذا البحث Corpus GigaSpeech، وهو مجموعة بيانات صوتية إنجليزية متعددة المجالات وقابلة للتطور، تضم 10,000 ساعة من الصوت المُسجّل بجودة عالية ومنسق بعناية، مناسبة لتدريب النماذج المُراقبة، بالإضافة إلى 40,000 ساعة من الصوت الإجمالي، التي تُستخدم في التدريب شبه المُراقب والغير مُراقب. تم جمع حوالي 40,000 ساعة من الصوت المُدوّن من مصادر متعددة مثل الكتب الصوتية (audiobooks)، والبودكاست، ويوتيوب، لتغطية أنماط مختلفة من الحديث، سواء كان قراءة مكتوبة أو تحدثًا طبيعياً، وتشمل مجموعة واسعة من المواضيع مثل الفنون، والعلوم، والرياضة، وغيرها. كما تم اقتراح خط أنابيب جديد للمحاذاة القسرية (forced alignment) والتقسيم (segmentation) لإنشاء مقاطع جمل مناسبة لتدريب أنظمة التعرف على الصوت، وتصفية المقاطع التي تمتلك جودة منخفضة في التحويل النصي. وتوفّر مجموعة GigaSpeech خمسة مجموعات فرعية بحجم مختلف لتدريب النماذج: 10 ساعات، و250 ساعة، و1000 ساعة، و2500 ساعة، و10,000 ساعة. وبالنسبة إلى مجموعة التدريب الكبيرة (XL) التي تبلغ 10,000 ساعة، تم وضع حد أقصى لمعدل الخطأ الكلمي (Word Error Rate) عند 4% خلال مرحلة التصفية والتحقق، بينما تم تحديد الحد الأقصى عند 0% لكل المجموعات الأصغر الأخرى. أما مجموعتا التقييم (DEV و TEST)، فقد تم إعادة معالجتهما بواسطة محررين بشريين محترفين لضمان جودة عالية في التحويل النصي. كما تُقدّم أنظمة أساسية (baseline systems) متوافقة مع أدوات شهيرة في مجال التعرف على الصوت، مثل Athena، وESPnet، وKaldi، وPika.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Command Palette

GigaSpeech: مجموعة صوتية لتقنيات التعرف على الكلام متعددة المجالات قابلة للتطور، تحتوي على 10,000 ساعة من الصوت المُدوَّن

Guoguo Chen Shuzhou Chai Guanbo Wang Jiayu Du Wei-Qiang Zhang Chao Weng Dan Su Daniel Povey Jan Trmal Junbo Zhang11 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

GigaSpeech: مجموعة صوتية لتقنيات التعرف على الكلام متعددة المجالات قابلة للتطور، تحتوي على 10,000 ساعة من الصوت المُدوَّن

Guoguo Chen Shuzhou Chai Guanbo Wang Jiayu Du Wei-Qiang Zhang Chao Weng Dan Su Daniel Povey Jan Trmal Junbo Zhang11 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

GigaSpeech: مجموعة صوتية لتقنيات التعرف على الكلام متعددة المجالات قابلة للتطور، تحتوي على 10,000 ساعة من الصوت المُدوَّن

Guoguo Chen Shuzhou Chai Guanbo Wang Jiayu Du Wei-Qiang Zhang Chao Weng Dan Su Daniel Povey Jan Trmal Junbo Zhang11 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Guoguo Chen Shuzhou Chai Guanbo Wang Jiayu Du Wei-Qiang Zhang Chao Weng Dan Su Daniel Povey Jan Trmal Junbo Zhang

Guoguo Chen Shuzhou Chai Guanbo Wang Jiayu Du Wei-Qiang Zhang Chao Weng Dan Su Daniel Povey Jan Trmal Junbo Zhang

Guoguo Chen Shuzhou Chai Guanbo Wang Jiayu Du Wei-Qiang Zhang Chao Weng Dan Su Daniel Povey Jan Trmal Junbo Zhang