HyperAIHyperAI

Command Palette

Search for a command to run...

HiFiTTS-2: مجموعة بيانات صوتية كبيرة النطاق وعالية العرض النطاق

Ryan Langman Xuesong Yang Paarth Neekhara Shehzeen Hussain et al

الملخص

يُقدّم هذا البحث مجموعة بيانات صوتية ضخمة تُسمّى HiFiTTS-2، مصممة لدعم توليد الصوت عالي النطاق الترددي. وتُستمد هذه المجموعة من مكتبة LibriVox الخاصة بالكتب الصوتية، وتشمل حوالي 36.7 ألف ساعة من الكلام الإنجليزي لتدريب نماذج بتردد عينة 22.05 كيلوهرتز، و31.7 ألف ساعة لتدريب نماذج بتردد عينة 44.1 كيلوهرتز. ونُقدّم في هذا العمل خط أنابيب معالجة البيانات، الذي يشمل تقدير النطاق الترددي، والتقسيم، ومعالجة النصوص، وتحديد المتكلمين المتعددين. وتُرفق المجموعة ببيانات وصفية تفصيلية للجمل الصوتية والكتب الصوتية، تم إنشاؤها بواسطة خط أنابيبنا، ما يمكّن الباحثين من تطبيق مرشّحات جودة البيانات لتعديل المجموعة وفقًا لحالات استخدام متنوعة. وتُظهر النتائج التجريبية أن خط أنابيب البيانات والبيانات الناتجة عنه يمكن أن يسهمان في تدريب نماذج عالية الجودة لتوليد الصوت من النص (TTS) دون الحاجة إلى تدريب مسبق (zero-shot) عند نِطاقات تردّد عالية.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
HiFiTTS-2: مجموعة بيانات صوتية كبيرة النطاق وعالية العرض النطاق | مستندات | HyperAI