التاريخ

منذ 7 أشهر

المؤسسة

الوسوم

RTX 5090

Text-to-Audio

رابط الورقة البحثية

2508.19205

الترخيص

MIT

GitHub

microsoft/VibeVoice49.7k

1. مقدمة البرنامج التعليمي

نظام VibeVoice-Realtime TTS هو نظام عالي الجودة لتحويل النص إلى كلام في الوقت الفعلي، مبني على نموذج توليف الكلام المتدفق VibeVoice-Realtime-0.5B الذي أصدره فريق أبحاث مايكروسوفت في ديسمبر 2025. يستخدم هذا النظام طريقة نشر مبتكرة تعتمد على الرمز التالي لنمذجة البيانات المتصلة في توليف الكلام الطويل متعدد المتحدثين، ويُقدم مُجزئًا فعالًا للكلام المتصل، مما يُمكّن النموذج من توليد ما يصل إلى 90 دقيقة من الكلام ضمن نافذة سياقية بحجم 64 ألف كلمة، ويدعم ما يصل إلى أربعة متحدثين. يُحسّن النظام بشكل ملحوظ الكفاءة الحسابية مع الحفاظ على جودة الصوت وتجسيد أجواء المحادثات الواقعية. تتوفر أوراق بحثية ذات صلة. VibeVoice: تقنية تحويل النص إلى كلام عالية الدقة ومتعددة المتحدثين يدعم النظام توليد الكلام متعدد المتحدثين، والاستدلال في الوقت الحقيقي بزمن استجابة منخفض، والتفاعل المرئي عبر واجهة الويب الخاصة بـ Grado.

الميزات الأساسية:

توليف الكلام في الوقت الحقيقي مع متحدثين متعددين
الاستدلال المتدفق، إخراج منخفض زمن الاستجابة
معدل أخذ عينات صوتية عالي الدقة 24000 هرتز
يدعم توليد الطاقة القابل للتحكم على نطاق CFG
الاستدلال المُسرّع بواسطة وحدة معالجة الرسومات
نشر محلي كامل دون اتصال بالإنترنت، دون الاعتماد على الشبكة الخارجية.

يستخدم هذا البرنامج التعليمي منصة Grado لنشر النموذج الأساسي VibeVoice-Realtime-0.5B، باستخدام وحدة معالجة "RTX_5090"، التي تدعم تشغيل خدمات توليف الكلام في الوقت الفعلي بثبات. يدعم هذا النموذج إدخال النصوص باللغة الإنجليزية فقط.

2. عرض التأثير

يتميز برنامج VibeVoice-Realtime بقدراته الأساسية:

تحويل النص إلى كلام في الوقت الفعلي: يقوم بإنشاء مخرجات صوتية بسرعة بعد إدخال النص.
دعم متعدد المتحدثين: يمكن تبديل أنماط صوتية مختلفة لنفس النص.
جودة كلام طبيعية للغاية: صوت واضح ونبرة طبيعية.
توليف مستقر للنصوص الطويلة: لا توجد مشاكل واضحة في علامات الترقيم أو التشويه.
يتمتع بقدرات تفاعلية قوية في الوقت الفعلي وهو مناسب لسيناريوهات مثل أنظمة الحوار والمساعدين الصوتيين.

3. خطوات التشغيل

1. ابدأ تشغيل الحاوية

بعد بدء تشغيل الحاوية، انقر فوق عنوان API للدخول إلى واجهة الويب

2. البدء

إذا ظهرت رسالة "Bad Gateway"، فهذا يعني أن النموذج قيد التهيئة. نظرًا لكبر حجم النموذج، يُرجى الانتظار من دقيقة إلى دقيقتين ثم تحديث الصفحة.

عند استخدام متصفح Safari، قد لا يتم تشغيل الصوت مباشرة ويجب تنزيله قبل التشغيل.

وصف المعلمة

معايير توليد الكلام
- مقياس CFG: يتحكم في شدة أسلوب الكلام؛ كلما ارتفعت القيمة، زادت قوة العاطفة.
معلمات مكبر الصوت
- صوت المتحدث: اختر أصوات متحدث مختلفة.

معلومات الاستشهاد

معلومات الاستشهاد لهذا المشروع هي كما يلي:

@article{vibevoice2024,
  title={VibeVoice: Real-Time Streaming Text-to-Speech with Multi-Speaker Support},
  author={Zhiliang Peng and Jianwei Yu and Wenhui Wang and Yaoyao Chang and Yutao Sun and Li Dong and Yi Zhu and Weijiang Xu and Hangbo Bao and Zehua Wang and Shaohan Huang and Yan Xia and Furu Wei},
  journal={arXiv preprint arXiv:2412.08635},
  year={2024}
}

@article{vibevoice2025,
  title={VibeVoice: High-Fidelity Multi-Speaker Streaming Text-to-Speech},
  author={Zhiliang Peng and Jianwei Yu and Wenhui Wang and Yaoyao Chang and Yutao Sun and Li Dong and Yi Zhu and Weijiang Xu and Hangbo Bao and Zehua Wang and Shaohan Huang and Yan Xia and Furu Wei},
  journal={arXiv preprint arXiv:2508.19205},
  year={2025}
}

تم المساهمة في هذا الدفتر من قبل مستخدمي المجتمع وهو مخصص لأغراض تعليمية وإعلامية فقط. إذا كان أي محتوى ينطوي على انتهاك لحقوق النشر، يرجى الاتصال بنا على [email protected] للمراجعة والإزالة الفورية.

نظرة عامة على Notebook

المستوى

مبتدئ

الموضوع

الصوت الذكاء الاصطناعي التوليدي

دفاتر ملاحظات ذات صلة

VibeVoice-ASR: عرض توضيحي متعدد الوظائف للتعرف على الكلام من البداية إلى النهاية

منذ 4 أشهر

MOSS-TTS: نموذج عالي الدقة لتوليد الكلام متعدد المشاهد

منذ 4 أشهر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

HyperAI

شغّل هذا الـNotebook ناقش على Discord