HyperAIHyperAI

Command Palette

Search for a command to run...

Console

خدمة VibeVoice-Realtime TTS: خدمة توليف الكلام في الوقت الفعلي

1. مقدمة البرنامج التعليمي

يبني

نظام VibeVoice-Realtime TTS هو نظام عالي الجودة لتحويل النص إلى كلام في الوقت الفعلي، مبني على نموذج توليف الكلام المتدفق VibeVoice-Realtime-0.5B الذي أصدره فريق أبحاث مايكروسوفت في ديسمبر 2025. يستخدم هذا النظام طريقة نشر جديدة تعتمد على الرمز المميز التالي لنمذجة البيانات المتصلة في توليف الكلام الطويل متعدد المتحدثين، ويُقدم مُجزئًا فعالًا للكلام المتصل، مما يُمكّن النموذج من توليد ما يصل إلى 90 دقيقة من الكلام ضمن نافذة سياقية تبلغ 64 ألف كلمة، ويدعم ما يصل إلى أربعة متحدثين. يُحسّن النظام بشكل كبير من كفاءة الحساب مع الحفاظ على جودة الصوت والتقاط أجواء المحادثات الواقعية. الورقة البحثية ذات الصلة بعنوان "VibeVoice: تقنية تحويل النص إلى كلام عالية الدقة ومتعددة المتحدثينيدعم النظام توليد الكلام متعدد المتحدثين، والاستدلال في الوقت الحقيقي بزمن استجابة منخفض، والتفاعل المرئي عبر واجهة الويب الخاصة بـ Grado.

الميزات الأساسية:

  • توليف الكلام في الوقت الحقيقي مع متحدثين متعددين
  • الاستدلال المتدفق، إخراج منخفض زمن الاستجابة
  • معدل أخذ عينات صوتية عالي الدقة 24000 هرتز
  • يدعم توليد الطاقة القابل للتحكم على نطاق CFG
  • الاستدلال المُسرّع بواسطة وحدة معالجة الرسومات
  • نشر محلي كامل دون اتصال بالإنترنت، دون الاعتماد على الشبكة الخارجية.

يستخدم هذا البرنامج التعليمي منصة Grado لنشر النموذج الأساسي VibeVoice-Realtime-0.5B، باستخدام وحدة معالجة "RTX_5090"، التي تدعم تشغيل خدمات توليف الكلام في الوقت الفعلي بثبات. يدعم هذا النموذج إدخال النصوص باللغة الإنجليزية فقط.

2. عرض التأثير

يتميز برنامج VibeVoice-Realtime بقدراته الأساسية:

  • تحويل النص إلى كلام في الوقت الفعلي: يقوم بإنشاء مخرجات صوتية بسرعة بعد إدخال النص.
  • دعم متعدد المتحدثين: يمكن تبديل أنماط صوتية مختلفة لنفس النص.
  • جودة كلام طبيعية للغاية: صوت واضح ونبرة طبيعية.
  • توليف مستقر للنصوص الطويلة: لا توجد مشاكل واضحة في علامات الترقيم أو التشويه.
  • يتمتع بقدرات تفاعلية قوية في الوقت الفعلي وهو مناسب لسيناريوهات مثل أنظمة الحوار والمساعدين الصوتيين.

3. خطوات التشغيل

1. ابدأ تشغيل الحاوية

بعد بدء تشغيل الحاوية، انقر فوق عنوان API للدخول إلى واجهة الويب

2. البدء

إذا ظهرت رسالة "Bad Gateway"، فهذا يعني أن النموذج قيد التهيئة. نظرًا لكبر حجم النموذج، يُرجى الانتظار من دقيقة إلى دقيقتين ثم تحديث الصفحة.

عند استخدام متصفح Safari، قد لا يتم تشغيل الصوت مباشرة ويجب تنزيله قبل التشغيل.

وصف المعلمة

  • معايير توليد الكلام
    • مقياس CFG: يتحكم في شدة أسلوب الكلام؛ كلما ارتفعت القيمة، زادت قوة العاطفة.
  • معلمات مكبر الصوت
    • صوت المتحدث: اختر أصوات متحدث مختلفة.

معلومات الاستشهاد

معلومات الاستشهاد لهذا المشروع هي كما يلي:

@article{vibevoice2024,
  title={VibeVoice: Real-Time Streaming Text-to-Speech with Multi-Speaker Support},
  author={Zhiliang Peng and Jianwei Yu and Wenhui Wang and Yaoyao Chang and Yutao Sun and Li Dong and Yi Zhu and Weijiang Xu and Hangbo Bao and Zehua Wang and Shaohan Huang and Yan Xia and Furu Wei},
  journal={arXiv preprint arXiv:2412.08635},
  year={2024}
}

@article{vibevoice2025,
title={VibeVoice: High-Fidelity Multi-Speaker Streaming Text-to-Speech},
author={Zhiliang Peng and Jianwei Yu and Wenhui Wang and Yaoyao Chang and Yutao Sun and Li Dong and Yi Zhu and Weijiang Xu and Hangbo Bao and Zehua Wang and Shaohan Huang and Yan Xia and Furu Wei},
journal={arXiv preprint arXiv:2508.19205},
year={2025}
}

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp