WenetSpeech: مكتبة بيانات متعددة المجالات باللغة الصينية الماندرين تحتوي على أكثر من 10000 ساعة للاعتراف بالكلام

في هذا البحث، نقدم ونتسبتش (WenetSpeech)، وهو مجمع متعدد المجالات للصينية الماندرين يحتوي على أكثر من 10000 ساعة من الكلام ذي التسميات عالية الجودة، وأكثر من 2400 ساعة من الكلام ذي التسميات الضعيفة، وحوالي 10000 ساعة من الكلام غير المسمى، بإجمالي 22400 ساعة. تم جمع البيانات من يوتيوب والبودكاست، مما يغطي مجموعة متنوعة من أساليب الكلام، والسياقات، والمجالات، والمواضيع، والحالات الضوضائية. يتم تقديم طريقة تعتمد على التعرف البصري على الحروف (OCR) لإنشاء مرشحات تقسيم الصوت/النص لبيانات يوتيوب بناءً على ترجمات الفيديو المرتبطة بها، بينما يتم استخدام نظام ترانسكريب عالي الجودة للكلام الآلي (ASR) لإنشاء مرشحات أزواج الصوت/النص لبيانات البودكاست. ثم نقترح نهجًا جديدًا للكشف عن الأخطاء في التسميات بشكل نهائي لتأكيد وتصفية المرشحين بشكل أكبر. كما نوفر ثلاثة مجموعات اختبار عالية الجودة تم تسميتها يدويًا مع ونتسبتش (WenetSpeech) للتقييم -- مجموعة Dev لأغراض التحقق المتقاطع أثناء التدريب، ومجموعة Test_Net التي تم جمعها من الإنترنت للاختبار المطابق، ومجموعة Test_Meeting المسجلة من اجتماعات حقيقية للاختبار غير المطابق الأكثر تحديًا. يتم توفير أنظمة أساسية تم تدريبها باستخدام ونتسبتش (WenetSpeech) لأدوات التعرف على الكلام الثلاثة الشائعة وهي كالدي (Kaldi)، وإسبينت (ESPnet)، وونت (WeNet)، كما يتم توفير نتائج التعرف على المجموعات الثلاثة الاختبارية أيضًا كمعيار مرجعي. حسب علمنا، يعتبر ونتسبتش (WenetSpeech) أكبر مجمع بيانات صوتية للصينية الماندرين مع ترانسكريب تم إتاحته كمصدر مفتوح حتى الآن، مما يفيد الأبحاث حول التعرف على الكلام بمستوى الإنتاج.