HyperAIHyperAI
منذ 12 أيام

WenetSpeech-Yue: مجموعة بيانات صوتية كبيرة الحجم للغة القوانغتشو مع تسمية متعددة الأبعاد

Longhao Li, Zhao Guo, Hongjie Chen, Yuhang Dai, Ziyu Zhang, et al
WenetSpeech-Yue: مجموعة بيانات صوتية كبيرة الحجم للغة القوانغتشو مع تسمية متعددة الأبعاد
الملخص

لقد تسارع بشكل كبير تطوير فهم الكلام وإنتاجه بفضل توفر مجموعات بيانات كلامية كبيرة الحجم وعالية الجودة. ومن بين هذه المجموعات، يُعدّ التعرف التلقائي على الكلام (ASR) وإنتاج الكلام التلقائي (TTS) أكثر المهام تأصيلاً وأساسية. ومع ذلك، في حالة اللّغة الكانتونية (الصينية اليوي)، التي يتحدثها نحو 84.9 مليون ناطق أصلي حول العالم، فقد عرقلت الموارد المُعلّمة المحدودة من التقدم، مما أدى إلى أداء غير مثالي في مهام التعرف على الكلام وإنتاجه. وللتغلب على هذا التحدي، نقترح "WenetSpeech-Pipe"، وهو خط أنابيب متكامل لبناء مجموعات بيانات كلامية كبيرة الحجم، مع تسمية متعددة الأبعاد مخصصة لمهام فهم الكلام وإنتاجه. ويتألف هذا الخط من ستة وحدات: جمع الصوت، وتسمية صفات المُتحدث، وتقييم جودة الكلام، والتعرف التلقائي على الكلام، ومعالجة ما بعد النص، وتصويت نتائج المُعرّف، مما يمكّن من إجراء تسميات غنية وعالية الجودة. وباستخدام هذا الخط، نُطلق "WenetSpeech-Yue"، وهي أول مجموعة بيانات كلامية كبيرة الحجم للغة الكانتونية، مُوسَّعة بتسميات متعددة الأبعاد لمهام التعرف على الكلام وإنتاجه، وتغطي 21,800 ساعة من البيانات عبر 10 مجالات، مع تسميات تشمل نصوص التعرف على الكلام، ومستوى ثقة النص، وتحديد هوية المُتحدث، وعمره، وجنسيته، ودرجات جودة الكلام، وغيرها من التسميات. كما نُطلق "WSYue-eval"، وهو معيار شامل للغة الكانتونية، يتكوّن من جزأين: "WSYue-ASR-eval"، وهو مجموعة مُعلّمة يدويًا لتقييم أداء التعرف على الكلام في الجمل القصيرة والطويلة، والتحول بين اللغات، والظروف الصوتية المتنوعة؛ و"WSYue-TTS-eval"، الذي يحتوي على مجموعتين فرعيتين: واحدة أساسية، وأخرى تغطي نطاقًا واسعًا، لاختبار الأداء القياسي والقدرة على التعميم. أظهرت النتائج التجريبية أن النماذج المدربة على "WenetSpeech-Yue" تحقق أداءً تنافسيًا مع أفضل النماذج الحالية (SOTA) في مجالات التعرف على الكلام وإنتاجه للغة الكانتونية، بما في ذلك النماذج التجارية والنماذج القائمة على النماذج اللغوية الكبيرة (LLMs)، مما يبرز القيمة الحقيقية لمجموعتنا البياناتية وخطنا أنابيب التصنيف.