HyperAIHyperAI

Command Palette

Search for a command to run...

Console

مجموعة بيانات WenetSpeech-Chuan Sichuan-Chongqing للهجة الكلامية

التاريخ

منذ 5 أيام

المؤسسة

أيشيل
شركة تشاينا تيليكوم
جامعة نورث وسترن بوليتكنيك

رابط الورقة البحثية

2509.18004

الترخيص

Apache 2.0

WenetSpeech-Chuan هي مجموعة بيانات واسعة النطاق للهجة سيتشوان-تشونغتشينغ، تم إصدارها عام 2025 من قبل جامعة نورث وسترن بوليتكنيكال بالتعاون مع هيلبيك، ومعهد أبحاث الذكاء الاصطناعي التابع لشركة تشاينا تيليكوم، ومؤسسات أخرى. الورقة البحثية ذات الصلة بعنوان "WenetSpeech-Chuan: مجموعة بيانات واسعة النطاق للغة السيشوانية مع شروح غنية لمعالجة الكلام اللهجي".

تحتوي هذه المجموعة من البيانات على 10,013 ساعة من الكلام الأصيل بلهجتي سيتشوان وتشونغتشينغ، منها 3,714 ساعة من البيانات المصنفة بدقة عالية و6,299 ساعة من البيانات المصنفة بشكل أقل دقة. تغطي البيانات تسعة سيناريوهات واقعية، حيث تمثل مقاطع الفيديو القصيرة 52,831 ساعة، بينما تشمل البيانات المتبقية الترفيه، والبث المباشر، والكتب الصوتية، والأفلام الوثائقية، والمقابلات، والأخبار، والقراءة، والمسلسلات التلفزيونية، مما يوفر توزيعًا متنوعًا وواقعيًا للكلام. يُرفق كل كلام بمعلومات تعريفية غنية، مثل محتوى النص، ومستوى الثقة، ودرجة جودة الصوت، وجنس المتحدث وعمره، وعلامات المشاعر.

توزيع مجموعة البيانات

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp