مجموعة بيانات لغة يوي الكانتونية من WenetSpeech
التاريخ
رابط النشر
رابط الورقة البحثية
الترخيص
非商业用途
WenetSpeech Yue هو نظام نصوص كلامية واسع النطاق ومُعلَّم متعدد الأبعاد، مُصمَّم خصيصًا للتعرف على الكلام الكانتوني (ASR) وتوليف النص إلى كلام (TTS)، وقد صدر عام ٢٠٢٥ عن جامعة نورث وسترن بوليتكنيك، ومعهد أبحاث الذكاء الاصطناعي التابع لشركة تشاينا تيليكوم، وشركة بكين هيل شل للتكنولوجيا المحدودة، ومؤسسات أخرى. نتائج البحث ذات الصلة هي:WenetSpeech-Yue: مجموعة كبيرة من نصوص الكلام الكانتوني مع شرح متعدد الأبعاد"، والذي يهدف إلى سد الفجوة في نقص الموارد في المجال الكانتوني وتعزيز التدريب وتقييم النماذج الكانتونية عالية الجودة.
تحتوي مجموعة البيانات على ما يقارب 21,800 ساعة من التسجيلات الكانتونية، تغطي 10 مجالات، منها: سرد القصص، والترفيه، والدراما، والثقافة، ومدونات الفيديو، والتعليق، والتعليم، والبودكاست، والأخبار، وغيرها. وهي مناسبة لتدريب وتقييم نماذج التعرف الآلي على الكلام الكانتوني (ASR) ونماذج تحويل النص إلى كلام (TTS)، بالإضافة إلى معالجة مجالات وأساليب تحدث متنوعة في سياقات لغوية واقعية. كما تدعم التحقق من قدرات التعميم عبر المجالات وتقييمها.
تكوين البيانات:
- نسخة: نتائج التعرف التلقائي على الكلام؛
- درجات الثقة: مثل ثقة النص وثقة بينيين الكانتونية؛
- سمات المتحدث: الجنس والعمر وهوية المتحدث؛
- مؤشرات جودة الصوت: مثل SNR و DNSMOS؛
- تعليق الوقت: المدة، وطابع زمني على مستوى الحرف؛
- البيانات الوصفية الموسعة: اسم البرنامج والمنطقة والرابط ومعلومات السجل.