HyperAIHyperAI

Command Palette

Search for a command to run...

خدمة VibeVoice-Realtime TTS: خدمة توليف الكلام في الوقت الفعلي

Date

منذ 2 أشهر

Size

646.98 MB

License

MIT

Paper URL

2508.19205

1. مقدمة البرنامج التعليمي

يبني

نظام VibeVoice-Realtime TTS هو نظام عالي الجودة لتحويل النص إلى كلام في الوقت الفعلي، مبني على نموذج توليف الكلام المتدفق VibeVoice-Realtime-0.5B الذي أصدره فريق أبحاث مايكروسوفت في ديسمبر 2025. يستخدم هذا النظام طريقة نشر مبتكرة تعتمد على الرمز التالي لنمذجة البيانات المتصلة في توليف الكلام الطويل متعدد المتحدثين، ويُقدم مُجزئًا فعالًا للكلام المتصل، مما يُمكّن النموذج من توليد ما يصل إلى 90 دقيقة من الكلام ضمن نافذة سياقية بحجم 64 ألف كلمة، ويدعم ما يصل إلى أربعة متحدثين. يُحسّن النظام بشكل ملحوظ الكفاءة الحسابية مع الحفاظ على جودة الصوت وتجسيد أجواء المحادثات الواقعية. تتوفر أوراق بحثية ذات صلة. VibeVoice: تقنية تحويل النص إلى كلام عالية الدقة ومتعددة المتحدثين يدعم النظام توليد الكلام متعدد المتحدثين، والاستدلال في الوقت الحقيقي بزمن استجابة منخفض، والتفاعل المرئي عبر واجهة الويب الخاصة بـ Grado.

الميزات الأساسية:

  • توليف الكلام في الوقت الحقيقي مع متحدثين متعددين
  • الاستدلال المتدفق، إخراج منخفض زمن الاستجابة
  • معدل أخذ عينات صوتية عالي الدقة 24000 هرتز
  • يدعم توليد الطاقة القابل للتحكم على نطاق CFG
  • الاستدلال المُسرّع بواسطة وحدة معالجة الرسومات
  • نشر محلي كامل دون اتصال بالإنترنت، دون الاعتماد على الشبكة الخارجية.

يستخدم هذا البرنامج التعليمي منصة Grado لنشر النموذج الأساسي VibeVoice-Realtime-0.5B، باستخدام وحدة معالجة "RTX_5090"، التي تدعم تشغيل خدمات توليف الكلام في الوقت الفعلي بثبات. يدعم هذا النموذج إدخال النصوص باللغة الإنجليزية فقط.

2. عرض التأثير

يتميز برنامج VibeVoice-Realtime بقدراته الأساسية:

  • تحويل النص إلى كلام في الوقت الفعلي: يقوم بإنشاء مخرجات صوتية بسرعة بعد إدخال النص.
  • دعم متعدد المتحدثين: يمكن تبديل أنماط صوتية مختلفة لنفس النص.
  • جودة كلام طبيعية للغاية: صوت واضح ونبرة طبيعية.
  • توليف مستقر للنصوص الطويلة: لا توجد مشاكل واضحة في علامات الترقيم أو التشويه.
  • يتمتع بقدرات تفاعلية قوية في الوقت الفعلي وهو مناسب لسيناريوهات مثل أنظمة الحوار والمساعدين الصوتيين.

3. خطوات التشغيل

1. ابدأ تشغيل الحاوية

بعد بدء تشغيل الحاوية، انقر فوق عنوان API للدخول إلى واجهة الويب

2. البدء

إذا ظهرت رسالة "Bad Gateway"، فهذا يعني أن النموذج قيد التهيئة. نظرًا لكبر حجم النموذج، يُرجى الانتظار من دقيقة إلى دقيقتين ثم تحديث الصفحة.

عند استخدام متصفح Safari، قد لا يتم تشغيل الصوت مباشرة ويجب تنزيله قبل التشغيل.

وصف المعلمة

  • معايير توليد الكلام
    • مقياس CFG: يتحكم في شدة أسلوب الكلام؛ كلما ارتفعت القيمة، زادت قوة العاطفة.
  • معلمات مكبر الصوت
    • صوت المتحدث: اختر أصوات متحدث مختلفة.

معلومات الاستشهاد

معلومات الاستشهاد لهذا المشروع هي كما يلي:

@article{vibevoice2024,
  title={VibeVoice: Real-Time Streaming Text-to-Speech with Multi-Speaker Support},
  author={Zhiliang Peng and Jianwei Yu and Wenhui Wang and Yaoyao Chang and Yutao Sun and Li Dong and Yi Zhu and Weijiang Xu and Hangbo Bao and Zehua Wang and Shaohan Huang and Yan Xia and Furu Wei},
  journal={arXiv preprint arXiv:2412.08635},
  year={2024}
}

@article{vibevoice2025,
title={VibeVoice: High-Fidelity Multi-Speaker Streaming Text-to-Speech},
author={Zhiliang Peng and Jianwei Yu and Wenhui Wang and Yaoyao Chang and Yutao Sun and Li Dong and Yi Zhu and Weijiang Xu and Hangbo Bao and Zehua Wang and Shaohan Huang and Yan Xia and Furu Wei},
journal={arXiv preprint arXiv:2508.19205},
year={2025}
}

Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp