HyperAIHyperAI

Command Palette

Search for a command to run...

Console

برنامج تعليمي عبر الإنترنت | مايكروسوفت تُتيح برنامج VibeVoice مفتوح المصدر، مما يُتيح 90 دقيقة من الحوار الطبيعي بين 4 أدوار

منذ يوم واحد
معلومة
h.li
Featured Image

شهدت تقنية تحويل النص إلى كلام (TTS) تقدماً ملحوظاً في السنوات الأخيرة، مما أتاح إنتاج عبارات قصيرة عالية الجودة وطبيعية الصوت لمتحدث واحد. ومع ذلك، لا تزال هناك تحديات كبيرة في إنتاج حوارات صوتية طويلة ومتعددة المتحدثين على نطاق واسع، مما يحد من استخدامها في سيناريوهات مثل البودكاست والكتب الصوتية متعددة الأدوار.

لا تزال الطرق التقليدية، حتى عند توليد هذا النوع من الصوت عن طريق دمج عبارات مُركّبة بشكل مستقل، قاصرة عن تحقيق تبادل طبيعي للأدوار في الحوار وتوليد نصوص واعية بالمحتوى. ومع تزايد متطلبات التطبيقات الصناعية، برزت أبحاث توليد الكلام في المحادثات الطويلة متعددة المتحدثين في قطاعات مختلفة.ومع ذلك، لم يتم بعد نشر معظم النتائج كمصدر مفتوح، أو لا تزال هناك مشكلات لم يتم حلها فيما يتعلق بطول الجيل والاستقرار.

وفي هذا السياق،أطلقت مايكروسوفت برنامج VibeVoice كمصدر مفتوح، بهدف تمكين توليف الكلام متعدد المتحدثين ذي التنسيق الطويل والقابل للتطوير. يستخدم VibeVoice نهج انتشار الرمز التالي لتوليف الكلام الطويل متعدد المتحدثين، وهي طريقة موحدة تستخدم الانحدار الذاتي للانتشار لتوليد متجهات كامنة لنمذجة البيانات المستمرة.

ولتحقيق هذه الغاية، ابتكر فريق البحث مُجزئًا جديدًا للكلام المتواصل، يحقق، مقارنةً بنموذج المُشفِّر الشائع حاليًا، تحسينًا في ضغط البيانات بمقدار 80 ضعفًا مع الحفاظ على أداء مماثل، مما ينتج عنه معدل ضغط يصل إلى 3200 ضعف (ما يعادل معدل إطارات 7.5 هرتز). وهذا يُحسِّن بشكل كبير كفاءة المعالجة الحسابية للتسلسلات الطويلة مع ضمان جودة الصوت.

مخطط بنية VibeVoice

على الرغم من بساطة تصميمها، تُظهر VibeVoice قدرات استثنائية.يمكنه توليف ما يصل إلى 90 دقيقة من الكلام مع ما يصل إلى أربعة متحدثين ضمن نافذة سياقية تبلغ 64 ألف، مما ينتج عنه صوت أكثر ثراءً، ونبرة أكثر طبيعية، والتقاط أجواء محادثة حقيقية.يُظهر هذا النظام قابلية نقل أقوى في التطبيقات متعددة اللغات، ويتفوق أداؤه العام على نماذج الحوار مفتوحة المصدر والخاصة الحالية.

مع اقتراب نهاية العام، تستخدم هذه المقالة برنامج VibeVoice لإنشاء مقطع صوتي مدته دقيقة وعشرون ثانية لتهنئة رأس السنة. وقد تحسنت جودة الصوت المُنشأ بشكل ملحوظ، متجاوزًا الصوت الرتيب "الآلي"، ليقدم نغمة غنية ومتعددة الطبقات مع توتر عاطفي، مما يجعله يبدو دافئًا ونابضًا بالحياة.

خدمة "VibeVoice-Realtime TTS: خدمة توليف الكلام في الوقت الفعلي" متاحة الآن في قسم الدروس التعليمية على موقع HyperAI الإلكتروني (hyper.ai). يمكنك تثبيتها وتجربتها بنقرة واحدة فقط!

رابط البرنامج التعليمي:

https://go.hyper.ai/jdZrA

تشغيل تجريبي

١. بعد الدخول إلى الصفحة الرئيسية لموقع hyper.ai، اختر "VibeVoice-Realtime TTS: خدمة توليف الكلام في الوقت الفعلي"، أو اخترها من صفحة "الدروس التعليمية". ثم انقر على "تشغيل هذا الدرس التعليمي عبر الإنترنت".

2. بعد إعادة توجيه الصفحة، انقر فوق "استنساخ" في الزاوية اليمنى العليا لاستنساخ البرنامج التعليمي في الحاوية الخاصة بك.

ملاحظة: يمكنك تبديل اللغات في الزاوية العلوية اليمنى من الصفحة. حاليًا، اللغتان الصينية والإنجليزية متاحتان. سيوضح هذا البرنامج التعليمي الخطوات باللغة الإنجليزية.

3. حدد صورتي "NVIDIA GeForce RTX 5090" و"PyTorch"، ثم اختر "الدفع حسب الاستخدام" أو "الخطة اليومية/الخطة الأسبوعية/الخطة الشهرية" حسب الحاجة، ثم انقر فوق "متابعة تنفيذ المهمة".

تقدم HyperAI مكافأة تسجيل للمستخدمين الجدد: مقابل $1 فقط، يمكنك الحصول على 5 ساعات من قوة الحوسبة RTX 5090 (بسعر أصلي $2.45)، والموارد صالحة إلى أجل غير مسمى.

٤. انتظر تخصيص الموارد. سيستغرق الاستنساخ الأول حوالي ٣ دقائق. بمجرد تغيير الحالة إلى "قيد التشغيل"، انقر على سهم الانتقال السريع بجوار "عنوان واجهة برمجة التطبيقات" للانتقال إلى صفحة العرض التوضيحي.

عرض التأثير

بعد الدخول إلى صفحة تشغيل العرض التوضيحي، حمّل فيديو الاختبار، وأدخل النص في حقل "النص المراد تحويله"، واختر من بين 7 نغمات صوتية متاحة في خيار "صوت المتحدث". يتحكم ضبط "مقياس CFG" في شدة أسلوب الكلام؛ تشير القيمة الأعلى إلى انفعال أقوى. أخيرًا، انقر على "إنشاء الكلام"، وانتظر لحظة حتى يتم إنشاء الصوت.

مع اقتراب نهاية العام، انقر لتشغيل تحيات العام الجديد من VibeVoice!

ما سبق هو البرنامج التعليمي الذي توصي به HyperAI هذه المرة. الجميع مدعوون للحضور وتجربته!

رابط البرنامج التعليمي:

https://go.hyper.ai/jdZrA

برنامج تعليمي عبر الإنترنت | مايكروسوفت تُتيح برنامج VibeVoice مفتوح المصدر، مما يُتيح 90 دقيقة من الحوار الطبيعي بين 4 أدوار | الأخبار | HyperAI