HyperAIHyperAI

يعيد Microsoft VibeVoice-1.5B تعريف حدود تقنية TTS

1. مقدمة البرنامج التعليمي

يبني

VibeVoice-1.5B هو نموذج جديد لتحويل النص إلى كلام (TTS) أصدرته مايكروسوفت في أغسطس 2025. يُنتج هذا النموذج صوتًا حواريًا مُعبّرًا وطويلًا ومتعدد المتحدثين، مثل البودكاست. يعتمد هذا النموذج على تقنية ترميز الكلام المستمر المبتكرة، وإطار عمل من الجيل التالي لنشر الرموز، بالإضافة إلى نموذج لغوي واسع (LLM)، لمعالجة تسلسلات صوتية طويلة بكفاءة مع الحفاظ على دقة عالية. يستطيع VibeVoice تجميع ما يصل إلى 90 دقيقة من الكلام، ويدعم ما يصل إلى أربعة متحدثين مختلفين. يتخطى هذا النموذج قيود أنظمة تحويل النص إلى كلام التقليدية، ويوفر إمكانيات جديدة للمحادثات الطبيعية والتعبير عن المشاعر.

موارد الحوسبة المستخدمة في هذا البرنامج التعليمي هي بطاقة RTX 4090 واحدة.

2. عرض التأثير

3. خطوات التشغيل

1. ابدأ تشغيل الحاوية

2. خطوات الاستخدام

إذا تم عرض "بوابة سيئة"، فهذا يعني أن النموذج قيد التهيئة. نظرًا لأن النموذج كبير الحجم، يرجى الانتظار لمدة 2-3 دقائق وتحديث الصفحة.

المعلمات المحددة:

  • معلمات التوليد
    • مقياس CFG: ضبط الاتساق بين الصوت الناتج ونص الحوار المدخل

نتيجة

4. المناقشة

🖌️ إذا رأيت مشروعًا عالي الجودة، فيرجى ترك رسالة في الخلفية للتوصية به! بالإضافة إلى ذلك، قمنا أيضًا بتأسيس مجموعة لتبادل الدروس التعليمية. مرحبًا بالأصدقاء لمسح رمز الاستجابة السريعة وإضافة [برنامج تعليمي SD] للانضمام إلى المجموعة لمناقشة المشكلات الفنية المختلفة ومشاركة نتائج التطبيق↓