HiFiTTS-2: مجموعة بيانات صوتية كبيرة النطاق وعالية العرض النطاق

يُقدّم هذا البحث مجموعة بيانات صوتية ضخمة تُسمّى HiFiTTS-2، مصممة لدعم توليد الصوت عالي النطاق الترددي. وتُستمد هذه المجموعة من مكتبة LibriVox الخاصة بالكتب الصوتية، وتشمل حوالي 36.7 ألف ساعة من الكلام الإنجليزي لتدريب نماذج بتردد عينة 22.05 كيلوهرتز، و31.7 ألف ساعة لتدريب نماذج بتردد عينة 44.1 كيلوهرتز. ونُقدّم في هذا العمل خط أنابيب معالجة البيانات، الذي يشمل تقدير النطاق الترددي، والتقسيم، ومعالجة النصوص، وتحديد المتكلمين المتعددين. وتُرفق المجموعة ببيانات وصفية تفصيلية للجمل الصوتية والكتب الصوتية، تم إنشاؤها بواسطة خط أنابيبنا، ما يمكّن الباحثين من تطبيق مرشّحات جودة البيانات لتعديل المجموعة وفقًا لحالات استخدام متنوعة. وتُظهر النتائج التجريبية أن خط أنابيب البيانات والبيانات الناتجة عنه يمكن أن يسهمان في تدريب نماذج عالية الجودة لتوليد الصوت من النص (TTS) دون الحاجة إلى تدريب مسبق (zero-shot) عند نِطاقات تردّد عالية.