HyperAIHyperAI

VoxCPM: تقنية تحويل النص إلى كلام بدون تقسيم الكلمات

1. مقدمة البرنامج التعليمي

VoxCPM هو نموذج لتوليد الكلام بمعلمة 0.5 مليار، طُوّر بالتعاون بين شركة Mianbi Intelligence وكلية الدراسات العليا الدولية بجامعة تسينغهوا في شنتشن في سبتمبر 2025. يحقق هذا النموذج مستويات رائدة في هذا المجال من حيث الطبيعية، وتشابه جرس الصوت، والتعبيرية الإيقاعية في تركيب الكلام. يستخدم VoxCPM بنية انحدار ذاتي منتشر شاملة لتوليد تمثيلات كلامية مستمرة مباشرةً من النص، متجاوزًا بذلك قيود التجزئة التقليدية للكلمات المنفصلة. ومن خلال نمذجة اللغة الهرمية وقيود التكميم ذات الحالة المحدودة، يحقق VoxCPM فصلًا ضمنيًا بين الدلالات والصوتيات، مما يُحسّن بشكل كبير من التعبيرية واستقرار توليد الكلام. يدعم VoxCPM استنساخ الصوت من الصفر، حيث يتطلب مقطعًا صوتيًا مرجعيًا واحدًا فقط لمحاكاة جرس صوت المتحدث ولهجته ونبرته العاطفية وخصائص أخرى بدقة، مما يُولّد كلامًا واقعيًا للغاية.

موارد الحوسبة المستخدمة في هذا البرنامج التعليمي هي بطاقة RTX 4090 واحدة.

2. عرض التأثير

3. خطوات التشغيل

1. ابدأ تشغيل الحاوية

إذا تم عرض "بوابة سيئة"، فهذا يعني أن النموذج قيد التهيئة. نظرًا لأن النموذج كبير الحجم، يرجى الانتظار لمدة 2-3 دقائق وتحديث الصفحة.

2. خطوات الاستخدام

المعلمات المحددة:

  • قيمة CFG: كلما ارتفعت القيمة، زاد الالتزام بالمطالبة، وكلما انخفضت القيمة، زاد الإبداع.
  • خطوات زمنية للاستدلال: عدد خطوات زمنية للاستدلال التي يجب إنشاؤها (قد تؤدي القيم الأعلى إلى تحسين الجودة ولكن على حساب السرعة الأبطأ).
  • تحسين الكلام الفوري: يستخدم نموذج ZipEnhancer لإزالة الضوضاء من صوت الكلام الفوري.
  • تطبيع النص: استخدم مكتبة wetext لتطبيع النص المدخل.

4. المناقشة

🖌️ إذا رأيت مشروعًا عالي الجودة، فيرجى ترك رسالة في الخلفية للتوصية به! بالإضافة إلى ذلك، قمنا أيضًا بتأسيس مجموعة لتبادل الدروس التعليمية. مرحبًا بالأصدقاء لمسح رمز الاستجابة السريعة وإضافة [برنامج تعليمي SD] للانضمام إلى المجموعة لمناقشة المشكلات الفنية المختلفة ومشاركة نتائج التطبيق↓

معلومات الاستشهاد

معلومات الاستشهاد لهذا المشروع هي كما يلي:

@misc{voxcpm2025,
  author       = {{Yixuan Zhou, Guoyang Zeng, Xin Liu, Xiang Li, Renjie Yu, Ziyang Wang, Runchuan Ye, Weiyue Sun, Jiancheng Gui, Kehan Li, Zhiyong Wu, Zhiyuan Liu}},
  title        = {{VoxCPM}},
  year         = {2025},
  publish = {\url{https://github.com/OpenBMB/VoxCPM}},
  note         = {GitHub repository}
}