نشر Parler-TTS بنقرة واحدة
مقدمة البرنامج التعليمي
Parler-TTS هو نموذج تحويل النص إلى كلام (TTS) خفيف الوزن والذي يمكنه إنشاء كلام طبيعي عالي الجودة بأسلوب متحدث معين. يتمتع بدرجة عالية من الحرية والابتكار، ويمكنه التحكم في جنس المتحدث، وجرسه، ونبرته، ومشهده (داخليًا، وخارجيًا، وعلى الطريق، وفي قاعة حفلات موسيقية، وما إلى ذلك) من خلال Prompt. إنها أول ورقة بحثية من Stability AI وDan Lyth وSimon King من جامعة إدنبرة بعنوان دليل اللغة الطبيعية لتحويل النص إلى كلام عالي الدقة مع التعليقات الاصطناعية"أعد إنتاج الكود."
على عكس نماذج TTS الأخرى، فإن Parler-TTS مفتوح المصدر تمامًا. يتم إصدار جميع مجموعات البيانات والمعالجة المسبقة ورمز التدريب والأوزان علنًا بموجب ترخيص، مما يتيح للمجتمع الاستفادة من عمل هذا البرنامج التعليمي لتطوير نماذج TTS القوية الخاصة بهم. ملحوظة: هذا النموذج لا يدعم اللغة الصينية بعد
خطوات التشغيل
1. 克隆并启动容器,等待约 30s(加载模型),点击 API 地址即可进入 Web 界面(使用 RTX 4090 即可启动)

2. 输入要生成的文字和风格描述,点击提交即可生成
• نص الإدخال: النص الذي يحتاج إلى تحويله إلى كلام
• الوصف: وصف دور الصوت والمشهد والنغمة والجرس والمعلومات الأخرى، على غرار الموجه. على سبيل المثال: يتحدث صوت الرجل ببطء قليلاً مع خلفية صاخبة للغاية، ويحمل نغمة منخفضة ويعرض لمسة من التعبير والحيوية. الصوت بعيد جدًا، ويضيف جوًا من التشويق.
• إنشاء Parler-TTS: ملفات صوتية تم إنشاؤها (يمكن الاستماع إليها وتنزيلها)

التبادل والمناقشة
🖌️ إذا رأيت مشروعًا عالي الجودة، فيرجى ترك رسالة في الخلفية للتوصية به! بالإضافة إلى ذلك، قمنا أيضًا بتأسيس مجموعة لتبادل الدروس التعليمية. مرحبًا بالأصدقاء لمسح رمز الاستجابة السريعة وإضافة [برنامج تعليمي SD] للانضمام إلى المجموعة لمناقشة المشكلات الفنية المختلفة ومشاركة نتائج التطبيق↓