HyperAI

نموذج توليد الكلام اللهجي على مستوى الإنتاج Step-Audio-TTS-3B

1. مقدمة البرنامج التعليمي

Step-Audio هو أول نظام حوار صوتي مفتوح المصدر على مستوى المنتج في الصناعة والذي يدمج فهم الكلام والتحكم في التوليد. تم إطلاقه مفتوح المصدر من قبل فريق Stepfun-AI في عام 2025. وهو يدعم إنشاء لغات متعددة (مثل الصينية والإنجليزية واليابانية)، والعواطف الصوتية (مثل السعادة والحزن)، واللهجات (مثل الكانتونية ولهجة سيتشوان)، وسرعة الكلام القابلة للتحكم والأسلوب الإيقاعي، ويدعم RAP والهمهمة، وما إلى ذلك.

本教程以 Step-Audio-TTS-3B 作为演示,算力资源采用「单卡 RTX4090」。

وظائف الدعم:

  • تركيب الكلام العام

قم بتعيين شخصية الصوت الافتراضية للموقع الرسمي Tingting وأضف صوت Nezha، ودعم إنشاء لغات متعددة، والعاطفة، واللهجة والإعدادات الأخرى

  • توليف الموسيقى

قم بتعيين شخصية الصوت الافتراضية للموقع الرسمي Tingting وإضافة صوت Nezha ودعم RAP والهمهمة

  • استنساخ الصوت

دعم المستخدمين لتحميل الصوت المخصص وإدخال محتوى النص الصوتي وتحديد اسم الدور حسب الحاجة

2. خطوات التشغيل

1. بعد تشغيل الحاوية، انقر على عنوان API للدخول إلى واجهة الويب (إذا ظهرت رسالة "Bad Gateway"، فهذا يعني أن النموذج قيد التهيئة. يُرجى الانتظار لمدة دقيقة تقريبًا ثم المحاولة مرة أخرى).

2. بعد الدخول إلى صفحة الويب، يمكنك إجراء توليف كلامي متعدد الوظائف

1. تركيب الكلام العام

تركيب الكلام العام

2. وضع RAP/Humming

وضع RAP / Hum

3. استنساخ الصوت

استنساخ الصوت

نصائح: يمكنك إنشاء تأثير استنساخ الصوت من RAP أو الهمهمة بسرعة عن طريق (RAP) أو (الهمهمة) قبل النص الذي سيتم إنشاؤه.

التبادل والمناقشة

🖌️ إذا رأيت مشروعًا عالي الجودة، فيرجى ترك رسالة في الخلفية للتوصية به! بالإضافة إلى ذلك، قمنا أيضًا بتأسيس مجموعة لتبادل الدروس التعليمية. مرحبًا بالأصدقاء لمسح رمز الاستجابة السريعة وإضافة [برنامج تعليمي SD] للانضمام إلى المجموعة لمناقشة المشكلات الفنية المختلفة ومشاركة نتائج التطبيق↓