الملخص

في هذا البحث، نقدم ونتسبتش (WenetSpeech)، وهو مجمع متعدد المجالات للصينية الماندرين يحتوي على أكثر من 10000 ساعة من الكلام ذي التسميات عالية الجودة، وأكثر من 2400 ساعة من الكلام ذي التسميات الضعيفة، وحوالي 10000 ساعة من الكلام غير المسمى، بإجمالي 22400 ساعة. تم جمع البيانات من يوتيوب والبودكاست، مما يغطي مجموعة متنوعة من أساليب الكلام، والسياقات، والمجالات، والمواضيع، والحالات الضوضائية. يتم تقديم طريقة تعتمد على التعرف البصري على الحروف (OCR) لإنشاء مرشحات تقسيم الصوت/النص لبيانات يوتيوب بناءً على ترجمات الفيديو المرتبطة بها، بينما يتم استخدام نظام ترانسكريب عالي الجودة للكلام الآلي (ASR) لإنشاء مرشحات أزواج الصوت/النص لبيانات البودكاست. ثم نقترح نهجًا جديدًا للكشف عن الأخطاء في التسميات بشكل نهائي لتأكيد وتصفية المرشحين بشكل أكبر. كما نوفر ثلاثة مجموعات اختبار عالية الجودة تم تسميتها يدويًا مع ونتسبتش (WenetSpeech) للتقييم -- مجموعة Dev لأغراض التحقق المتقاطع أثناء التدريب، ومجموعة Test_Net التي تم جمعها من الإنترنت للاختبار المطابق، ومجموعة Test_Meeting المسجلة من اجتماعات حقيقية للاختبار غير المطابق الأكثر تحديًا. يتم توفير أنظمة أساسية تم تدريبها باستخدام ونتسبتش (WenetSpeech) لأدوات التعرف على الكلام الثلاثة الشائعة وهي كالدي (Kaldi)، وإسبينت (ESPnet)، وونت (WeNet)، كما يتم توفير نتائج التعرف على المجموعات الثلاثة الاختبارية أيضًا كمعيار مرجعي. حسب علمنا، يعتبر ونتسبتش (WenetSpeech) أكبر مجمع بيانات صوتية للصينية الماندرين مع ترانسكريب تم إتاحته كمصدر مفتوح حتى الآن، مما يفيد الأبحاث حول التعرف على الكلام بمستوى الإنتاج.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Command Palette

WenetSpeech: مكتبة بيانات متعددة المجالات باللغة الصينية الماندرين تحتوي على أكثر من 10000 ساعة للاعتراف بالكلام

Binbin Zhang; Hang Lv; Pengcheng Guo; Qijie Shao; Chao Yang; Lei Xie; Xin Xu; Hui Bu; Xiaoyu Chen; Chenchen Zeng; Di Wu; Zhendong Peng

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

WenetSpeech: مكتبة بيانات متعددة المجالات باللغة الصينية الماندرين تحتوي على أكثر من 10000 ساعة للاعتراف بالكلام

Binbin Zhang; Hang Lv; Pengcheng Guo; Qijie Shao; Chao Yang; Lei Xie; Xin Xu; Hui Bu; Xiaoyu Chen; Chenchen Zeng; Di Wu; Zhendong Peng

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

WenetSpeech: مكتبة بيانات متعددة المجالات باللغة الصينية الماندرين تحتوي على أكثر من 10000 ساعة للاعتراف بالكلام

Binbin Zhang; Hang Lv; Pengcheng Guo; Qijie Shao; Chao Yang; Lei Xie; Xin Xu; Hui Bu; Xiaoyu Chen; Chenchen Zeng; Di Wu; Zhendong Peng

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters