HyperAI

OuteTTS: محرك توليد الكلام

1. مقدمة البرنامج التعليمي

يبني

OuteTTS هو مشروع مفتوح المصدر لتحويل النص إلى كلام (TTS)، أطلقه فريق Oute AI في أوائل نوفمبر 2024. يتمثل ابتكاره الأساسي في استخدام نهج نمذجة لغوية خالصة لتوليد كلام عالي الجودة دون الاعتماد على محولات معقدة أو وحدات خارجية في أنظمة تحويل النص إلى كلام التقليدية. تشمل الميزات الرئيسية ما يلي:

  • تحويل النص إلى كلام: أدخل النص لتوليد مخرجات كلام طبيعية وسلسة، مع دعم سرعة الكلام ونبرته القابلة للتخصيص.
  • استنساخ الصوت: يمكن للمستخدمين توفير صوت مرجعي لمدة تصل إلى بضع ثوانٍ والنص المقابل لإنشاء أصوات مخصصة، وهو مناسب للمساعدين الصوتيين المخصصين والكتب الصوتية وغيرها من السيناريوهات.

النموذج المستخدم في هذا البرنامج التعليمي هو نموذج Llama-OuteTTS-1.0-1B، الذي أصدرته Oute AI في مارس 2025. رُفعت معلماته من 350 مليونًا إلى مليار، مما حسّن بشكل كبير من قدرة التعبير الصوتي واستقراره. كما يدعم التوليف المحلي بـ 20 لغة، وقد تم تحسين إمكانية الاستنساخ بين اللغات بشكل أكبر.

تعتمد موارد الحوسبة في هذا البرنامج التعليمي على بطاقة RTX 4090 واحدة. يقدم هذا البرنامج التعليمي بشكل أساسي مثالين لاستخدام مكبر الصوت الافتراضي واستنساخ الصوت. يدعم هذا البرنامج التعليمي اللغة الإنجليزية فقط.

2. عرض التأثير

3. خطوات التشغيل

1. ابدأ تشغيل الحاوية

2. خطوات الاستخدام

إذا تم عرض "بوابة سيئة"، فهذا يعني أن النموذج قيد التهيئة. نظرًا لأن النموذج كبير الحجم، يرجى الانتظار لمدة 2-3 دقائق وتحديث الصفحة.

عند استخدام متصفح Safari، قد لا يتم تشغيل الصوت مباشرة ويجب تنزيله قبل التشغيل.

المعلمات المحددة:

  • النص: أدخل النص الذي تريد إنشاءه.
  • درجة الحرارة: عامل القياس الذي يتحكم في عشوائية الإخراج.
  • عقوبة التكرار: معامل العقوبة لقمع التوليد المتكرر.
  • Top-k: حدد عدد الكلمات المرشحة التي يتم إنشاؤها في كل خطوة.
  • أعلى-ص: اختيار الكلمة المرشحة الديناميكية (أخذ العينات الأساسية).
  • الحد الأدنى للاحتمال (min-p): يحدد الحد الأدنى لاحتمالية الكلمات المرشحة.

1. مكبر الصوت الافتراضي

2. استنساخ الصوت

4. المناقشة

🖌️ إذا رأيت مشروعًا عالي الجودة، فيرجى ترك رسالة في الخلفية للتوصية به! بالإضافة إلى ذلك، قمنا أيضًا بتأسيس مجموعة لتبادل الدروس التعليمية. مرحبًا بالأصدقاء لمسح رمز الاستجابة السريعة وإضافة [برنامج تعليمي SD] للانضمام إلى المجموعة لمناقشة المشكلات الفنية المختلفة ومشاركة نتائج التطبيق↓