التاريخ

منذ 4 أشهر

الحجم

380.39 MB

الوسوم

Text-to-Audio

الترخيص

Apache 2.0

GitHub

OpenBMB/VoxCPM/

1. مقدمة البرنامج التعليمي

VoxCPM هو نموذج لتوليد الكلام بمعلمة 0.5 مليار، طُوّر بالتعاون بين شركة Mianbi Intelligence وكلية الدراسات العليا الدولية بجامعة تسينغهوا في شنتشن في سبتمبر 2025. يحقق هذا النموذج مستويات رائدة في هذا المجال من حيث الطبيعية، وتشابه جرس الصوت، والتعبيرية الإيقاعية في تركيب الكلام. يستخدم VoxCPM بنية انحدار ذاتي منتشر شاملة لتوليد تمثيلات كلامية مستمرة مباشرةً من النص، متجاوزًا بذلك قيود التجزئة التقليدية للكلمات المنفصلة. ومن خلال نمذجة اللغة الهرمية وقيود التكميم ذات الحالة المحدودة، يحقق VoxCPM فصلًا ضمنيًا بين الدلالات والصوتيات، مما يُحسّن بشكل كبير من التعبيرية واستقرار توليد الكلام. يدعم VoxCPM استنساخ الصوت من الصفر، حيث يتطلب مقطعًا صوتيًا مرجعيًا واحدًا فقط لمحاكاة جرس صوت المتحدث ولهجته ونبرته العاطفية وخصائص أخرى بدقة، مما يُولّد كلامًا واقعيًا للغاية.

موارد الحوسبة المستخدمة في هذا البرنامج التعليمي هي بطاقة RTX 4090 واحدة.

2. عرض التأثير

3. خطوات التشغيل

1. ابدأ تشغيل الحاوية

إذا تم عرض "بوابة سيئة"، فهذا يعني أن النموذج قيد التهيئة. نظرًا لأن النموذج كبير الحجم، يرجى الانتظار لمدة 2-3 دقائق وتحديث الصفحة.

2. خطوات الاستخدام

المعلمات المحددة:

قيمة CFG: كلما ارتفعت القيمة، زاد الالتزام بالمطالبة، وكلما انخفضت القيمة، زاد الإبداع.
خطوات زمنية للاستدلال: عدد خطوات زمنية للاستدلال التي يجب إنشاؤها (قد تؤدي القيم الأعلى إلى تحسين الجودة ولكن على حساب السرعة الأبطأ).
تحسين الكلام الفوري: يستخدم نموذج ZipEnhancer لإزالة الضوضاء من صوت الكلام الفوري.
تطبيع النص: استخدم مكتبة wetext لتطبيع النص المدخل.

4. المناقشة

🖌️ إذا رأيت مشروعًا عالي الجودة، فيرجى ترك رسالة في الخلفية للتوصية به! بالإضافة إلى ذلك، قمنا أيضًا بتأسيس مجموعة لتبادل الدروس التعليمية. مرحبًا بالأصدقاء لمسح رمز الاستجابة السريعة وإضافة [برنامج تعليمي SD] للانضمام إلى المجموعة لمناقشة المشكلات الفنية المختلفة ومشاركة نتائج التطبيق↓

معلومات الاستشهاد

معلومات الاستشهاد لهذا المشروع هي كما يلي:

@misc{voxcpm2025,
  author       = {{Yixuan Zhou, Guoyang Zeng, Xin Liu, Xiang Li, Renjie Yu, Ziyang Wang, Runchuan Ye, Weiyue Sun, Jiancheng Gui, Kehan Li, Zhiyong Wu, Zhiyuan Liu}},
  title        = {{VoxCPM}},
  year         = {2025},
  publish = {\url{https://github.com/OpenBMB/VoxCPM}},
  note         = {GitHub repository}
}

تم المساهمة في هذا الدفتر من قبل مستخدمي المجتمع وهو مخصص لأغراض تعليمية وإعلامية فقط. إذا كان أي محتوى ينطوي على انتهاك لحقوق النشر، يرجى الاتصال بنا على [email protected] للمراجعة والإزالة الفورية.

MonkeyOCR: تحليل المستندات استنادًا إلى النموذج الثلاثي للبنية والتعرف على العلاقة

منذ 3 أشهر

توليد الصوت kyutai-tts-1.6 b-en_fr

منذ شهر واحد

Open-AutoGLM: مساعد ذكي للأجهزة المحمولة

منذ 2 أشهر

PaddleOCR-VL: تحليل المستندات متعدد الوسائط

منذ 3 أشهر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

HyperAI

تشغيل هذا Notebook