برنامج تعليمي عبر الإنترنت | مايكروسوفت تُتيح برنامج VibeVoice مفتوح المصدر، مما يُتيح 90 دقيقة من الحوار الطبيعي بين 4 أدوار

منذ 7 أشهر

شهدت تقنية تحويل النص إلى كلام (TTS) تقدماً ملحوظاً في السنوات الأخيرة، مما أتاح إنتاج عبارات قصيرة عالية الجودة وطبيعية الصوت لمتحدث واحد. ومع ذلك، لا تزال هناك تحديات كبيرة في إنتاج حوارات صوتية طويلة ومتعددة المتحدثين على نطاق واسع، مما يحد من استخدامها في سيناريوهات مثل البودكاست والكتب الصوتية متعددة الأدوار.

لا تزال الطرق التقليدية، حتى عند توليد هذا النوع من الصوت عن طريق دمج عبارات مُركّبة بشكل مستقل، قاصرة عن تحقيق تبادل طبيعي للأدوار في الحوار وتوليد نصوص واعية بالمحتوى. ومع تزايد متطلبات التطبيقات الصناعية، برزت أبحاث توليد الكلام في المحادثات الطويلة متعددة المتحدثين في قطاعات مختلفة.ومع ذلك، لم يتم بعد نشر معظم النتائج كمصدر مفتوح، أو لا تزال هناك مشكلات لم يتم حلها فيما يتعلق بطول الجيل والاستقرار.

وفي هذا السياق،أطلقت مايكروسوفت برنامج VibeVoice كمصدر مفتوح، بهدف تمكين توليف الكلام متعدد المتحدثين ذي التنسيق الطويل والقابل للتطوير. يستخدم VibeVoice نهج انتشار الرمز التالي لتوليف الكلام الطويل متعدد المتحدثين، وهي طريقة موحدة تستخدم الانحدار الذاتي للانتشار لتوليد متجهات كامنة لنمذجة البيانات المستمرة.

ولتحقيق هذه الغاية، ابتكر فريق البحث مُجزئًا جديدًا للكلام المتواصل، يحقق، مقارنةً بنموذج المُشفِّر الشائع حاليًا، تحسينًا في ضغط البيانات بمقدار 80 ضعفًا مع الحفاظ على أداء مماثل، مما ينتج عنه معدل ضغط يصل إلى 3200 ضعف (ما يعادل معدل إطارات 7.5 هرتز). وهذا يُحسِّن بشكل كبير كفاءة المعالجة الحسابية للتسلسلات الطويلة مع ضمان جودة الصوت.

على الرغم من بساطة تصميمها، تُظهر VibeVoice قدرات استثنائية.يمكنه توليف ما يصل إلى 90 دقيقة من الكلام مع ما يصل إلى أربعة متحدثين ضمن نافذة سياقية تبلغ 64 ألف، مما ينتج عنه صوت أكثر ثراءً، ونبرة أكثر طبيعية، والتقاط أجواء محادثة حقيقية.يُظهر هذا النظام قابلية نقل أقوى في التطبيقات متعددة اللغات، ويتفوق أداؤه العام على نماذج الحوار مفتوحة المصدر والخاصة الحالية.

مع اقتراب نهاية العام، تستخدم هذه المقالة برنامج VibeVoice لإنشاء مقطع صوتي مدته دقيقة وعشرون ثانية لتهنئة رأس السنة. وقد تحسنت جودة الصوت المُنشأ بشكل ملحوظ، متجاوزًا الصوت الرتيب "الآلي"، ليقدم نغمة غنية ومتعددة الطبقات مع توتر عاطفي، مما يجعله يبدو دافئًا ونابضًا بالحياة.

خدمة "VibeVoice-Realtime TTS: خدمة توليف الكلام في الوقت الفعلي" متاحة الآن في قسم الدروس التعليمية على موقع HyperAI الإلكتروني (hyper.ai). يمكنك تثبيتها وتجربتها بنقرة واحدة فقط!

رابط البرنامج التعليمي:

https://go.hyper.ai/jdZrA

تشغيل تجريبي

١. بعد الدخول إلى الصفحة الرئيسية لموقع hyper.ai، اختر "VibeVoice-Realtime TTS: خدمة توليف الكلام في الوقت الفعلي"، أو اخترها من صفحة "الدروس التعليمية". ثم انقر على "تشغيل هذا الدرس التعليمي عبر الإنترنت".

2. بعد إعادة توجيه الصفحة، انقر فوق "استنساخ" في الزاوية اليمنى العليا لاستنساخ البرنامج التعليمي في الحاوية الخاصة بك.

ملاحظة: يمكنك تبديل اللغات في الزاوية العلوية اليمنى من الصفحة. حاليًا، اللغتان الصينية والإنجليزية متاحتان. سيوضح هذا البرنامج التعليمي الخطوات باللغة الإنجليزية.

3. حدد صورتي "NVIDIA GeForce RTX 5090" و"PyTorch"، ثم اختر "الدفع حسب الاستخدام" أو "الخطة اليومية/الخطة الأسبوعية/الخطة الشهرية" حسب الحاجة، ثم انقر فوق "متابعة تنفيذ المهمة".

تقدم HyperAI مكافأة تسجيل للمستخدمين الجدد: مقابل $1 فقط، يمكنك الحصول على 5 ساعات من قوة الحوسبة RTX 5090 (بسعر أصلي $2.45)، والموارد صالحة إلى أجل غير مسمى.

٤. انتظر تخصيص الموارد. سيستغرق الاستنساخ الأول حوالي ٣ دقائق. بمجرد تغيير الحالة إلى "قيد التشغيل"، انقر على سهم الانتقال السريع بجوار "عنوان واجهة برمجة التطبيقات" للانتقال إلى صفحة العرض التوضيحي.

عرض التأثير

بعد الدخول إلى صفحة تشغيل العرض التوضيحي، حمّل فيديو الاختبار، وأدخل النص في حقل "النص المراد تحويله"، واختر من بين 7 نغمات صوتية متاحة في خيار "صوت المتحدث". يتحكم ضبط "مقياس CFG" في شدة أسلوب الكلام؛ تشير القيمة الأعلى إلى انفعال أقوى. أخيرًا، انقر على "إنشاء الكلام"، وانتظر لحظة حتى يتم إنشاء الصوت.

مع اقتراب نهاية العام، انقر لتشغيل تحيات العام الجديد من VibeVoice!

ما سبق هو البرنامج التعليمي الذي توصي به HyperAI هذه المرة. الجميع مدعوون للحضور وتجربته!

رابط البرنامج التعليمي:

https://go.hyper.ai/jdZrA

ذات صلة الأخبار

حقق "حرية التعليق الصوتي" باستخدام 3 ثوانٍ فقط من الصوت: نموذج الكلام مفتوح المصدر Mistral Voxtral-4B-TTS-2603؛ وضع معيارًا جديدًا لجودة البيانات: Sutra 10B Pretraining.

هل يمكن للرموز التعبيرية التحكم في توليد الكلام؟ Irodori-TTS هو نظام تحويل النص إلى كلام ياباني يعتمد على بنية RF-DiT؛ مجموعات بيانات أمراض الجلد الأكزيما والسعفة: يدعم تصنيف الصور الطبية والتعلم بالنقل.

دليل تعليمي عبر الإنترنت | يدعم أكثر من 600 لغة، تطبيق OmniVoice مفتوح المصدر من Xiaomi: استنساخ الصوت باستخدام 3-10 ثوانٍ فقط من الصوت المرجعي

قامت شركة Tencent بفتح نموذج الترجمة Hy-MT1.5: 440MB يحقق قدرات ترجمة من الدرجة الأولى؛ وقام معهد ماساتشوستس للتكنولوجيا بإصدار MathNet بشكل مشترك: وهو معيار استدلال رياضي متعدد الوسائط يغطي 27000 مسألة رياضية حقيقية من أولمبياد الرياضيات.

سريع ودقيق! شركة Cohere تُصدر نموذج نسخ مفتوح المصدر؛ تحليل دقيق للسيناريوهات المعقدة: نموذج اللغة المرئي Chandra-ocr-2 يحقق التعرف الضوئي على الأحرف بدقة عالية.

برنامج تعليمي مجاني لوحدة المعالجة المركزية | حقق نموذج Supertonic-3 TTS 8.8 ألف نجمة، ويحتوي على حوالي 99 مليون معلمة فقط ويدعم 31 لغة.

برنامج تعليمي عبر الإنترنت | فريق جامعة هونغ كونغ يفتح برنامج DeepTutor، وهو مساعد تعليمي شخصي يُمكّن من التعلم التفاعلي الذي يغطي الفهم والاستدلال والتوليد من خلال التعاون بين عدة وكلاء

إنجازٌ ثوري في مجال تحويل النص إلى كلام بدون أخذ عينات! بضع ثوانٍ من الصوت المرجعي، يساعدك OmniVoice على استنساخ مئات اللغات بسهولة؛ 17 لغة دفعة واحدة: يحل MDPbench المشكلة الرئيسية لتحليل أنظمة النصوص ذات الموارد المحدودة.

نموذج كشف الخصوصية قابل للتشغيل محليًا: يحقق مرشح الخصوصية تصفية عالية الجودة للمعلومات الشخصية بتكلفة منخفضة؛ مفتوح المصدر بالكامل! يغطي مجموعة بيانات كرة القدم المنظمة من Transfermarkt التي تضم أكثر من 80000 مباراة.

HyperAI

برنامج تعليمي عبر الإنترنت | مايكروسوفت تُتيح برنامج VibeVoice مفتوح المصدر، مما يُتيح 90 دقيقة من الحوار الطبيعي بين 4 أدوار

منذ 7 أشهر

رابط البرنامج التعليمي:

https://go.hyper.ai/jdZrA

تشغيل تجريبي

عرض التأثير

مع اقتراب نهاية العام، انقر لتشغيل تحيات العام الجديد من VibeVoice!

ما سبق هو البرنامج التعليمي الذي توصي به HyperAI هذه المرة. الجميع مدعوون للحضور وتجربته!

رابط البرنامج التعليمي:

https://go.hyper.ai/jdZrA

ذات صلة الأخبار

حقق "حرية التعليق الصوتي" باستخدام 3 ثوانٍ فقط من الصوت: نموذج الكلام مفتوح المصدر Mistral Voxtral-4B-TTS-2603؛ وضع معيارًا جديدًا لجودة البيانات: Sutra 10B Pretraining.

هل يمكن للرموز التعبيرية التحكم في توليد الكلام؟ Irodori-TTS هو نظام تحويل النص إلى كلام ياباني يعتمد على بنية RF-DiT؛ مجموعات بيانات أمراض الجلد الأكزيما والسعفة: يدعم تصنيف الصور الطبية والتعلم بالنقل.

دليل تعليمي عبر الإنترنت | يدعم أكثر من 600 لغة، تطبيق OmniVoice مفتوح المصدر من Xiaomi: استنساخ الصوت باستخدام 3-10 ثوانٍ فقط من الصوت المرجعي

قامت شركة Tencent بفتح نموذج الترجمة Hy-MT1.5: 440MB يحقق قدرات ترجمة من الدرجة الأولى؛ وقام معهد ماساتشوستس للتكنولوجيا بإصدار MathNet بشكل مشترك: وهو معيار استدلال رياضي متعدد الوسائط يغطي 27000 مسألة رياضية حقيقية من أولمبياد الرياضيات.

سريع ودقيق! شركة Cohere تُصدر نموذج نسخ مفتوح المصدر؛ تحليل دقيق للسيناريوهات المعقدة: نموذج اللغة المرئي Chandra-ocr-2 يحقق التعرف الضوئي على الأحرف بدقة عالية.

برنامج تعليمي مجاني لوحدة المعالجة المركزية | حقق نموذج Supertonic-3 TTS 8.8 ألف نجمة، ويحتوي على حوالي 99 مليون معلمة فقط ويدعم 31 لغة.

برنامج تعليمي عبر الإنترنت | فريق جامعة هونغ كونغ يفتح برنامج DeepTutor، وهو مساعد تعليمي شخصي يُمكّن من التعلم التفاعلي الذي يغطي الفهم والاستدلال والتوليد من خلال التعاون بين عدة وكلاء

إنجازٌ ثوري في مجال تحويل النص إلى كلام بدون أخذ عينات! بضع ثوانٍ من الصوت المرجعي، يساعدك OmniVoice على استنساخ مئات اللغات بسهولة؛ 17 لغة دفعة واحدة: يحل MDPbench المشكلة الرئيسية لتحليل أنظمة النصوص ذات الموارد المحدودة.

نموذج كشف الخصوصية قابل للتشغيل محليًا: يحقق مرشح الخصوصية تصفية عالية الجودة للمعلومات الشخصية بتكلفة منخفضة؛ مفتوح المصدر بالكامل! يغطي مجموعة بيانات كرة القدم المنظمة من Transfermarkt التي تضم أكثر من 80000 مباراة.

Command Palette

برنامج تعليمي عبر الإنترنت | مايكروسوفت تُتيح برنامج VibeVoice مفتوح المصدر، مما يُتيح 90 دقيقة من الحوار الطبيعي بين 4 أدوار

تشغيل تجريبي

عرض التأثير

Command Palette

برنامج تعليمي عبر الإنترنت | مايكروسوفت تُتيح برنامج VibeVoice مفتوح المصدر، مما يُتيح 90 دقيقة من الحوار الطبيعي بين 4 أدوار

تشغيل تجريبي

عرض التأثير

ذات صلة الأخبار

حقق "حرية التعليق الصوتي" باستخدام 3 ثوانٍ فقط من الصوت: نموذج الكلام مفتوح المصدر Mistral Voxtral-4B-TTS-2603؛ وضع معيارًا جديدًا لجودة البيانات: Sutra 10B Pretraining.

دليل تعليمي عبر الإنترنت | يدعم أكثر من 600 لغة، تطبيق OmniVoice مفتوح المصدر من Xiaomi: استنساخ الصوت باستخدام 3-10 ثوانٍ فقط من الصوت المرجعي

سريع ودقيق! شركة Cohere تُصدر نموذج نسخ مفتوح المصدر؛ تحليل دقيق للسيناريوهات المعقدة: نموذج اللغة المرئي Chandra-ocr-2 يحقق التعرف الضوئي على الأحرف بدقة عالية.

برنامج تعليمي مجاني لوحدة المعالجة المركزية | حقق نموذج Supertonic-3 TTS 8.8 ألف نجمة، ويحتوي على حوالي 99 مليون معلمة فقط ويدعم 31 لغة.

Command Palette

برنامج تعليمي عبر الإنترنت | مايكروسوفت تُتيح برنامج VibeVoice مفتوح المصدر، مما يُتيح 90 دقيقة من الحوار الطبيعي بين 4 أدوار

تشغيل تجريبي

عرض التأثير

ذات صلة الأخبار

حقق "حرية التعليق الصوتي" باستخدام 3 ثوانٍ فقط من الصوت: نموذج الكلام مفتوح المصدر Mistral Voxtral-4B-TTS-2603؛ وضع معيارًا جديدًا لجودة البيانات: Sutra 10B Pretraining.

دليل تعليمي عبر الإنترنت | يدعم أكثر من 600 لغة، تطبيق OmniVoice مفتوح المصدر من Xiaomi: استنساخ الصوت باستخدام 3-10 ثوانٍ فقط من الصوت المرجعي

سريع ودقيق! شركة Cohere تُصدر نموذج نسخ مفتوح المصدر؛ تحليل دقيق للسيناريوهات المعقدة: نموذج اللغة المرئي Chandra-ocr-2 يحقق التعرف الضوئي على الأحرف بدقة عالية.

برنامج تعليمي مجاني لوحدة المعالجة المركزية | حقق نموذج Supertonic-3 TTS 8.8 ألف نجمة، ويحتوي على حوالي 99 مليون معلمة فقط ويدعم 31 لغة.

ذات صلة الأخبار

حقق "حرية التعليق الصوتي" باستخدام 3 ثوانٍ فقط من الصوت: نموذج الكلام مفتوح المصدر Mistral Voxtral-4B-TTS-2603؛ وضع معيارًا جديدًا لجودة البيانات: Sutra 10B Pretraining.

دليل تعليمي عبر الإنترنت | يدعم أكثر من 600 لغة، تطبيق OmniVoice مفتوح المصدر من Xiaomi: استنساخ الصوت باستخدام 3-10 ثوانٍ فقط من الصوت المرجعي

سريع ودقيق! شركة Cohere تُصدر نموذج نسخ مفتوح المصدر؛ تحليل دقيق للسيناريوهات المعقدة: نموذج اللغة المرئي Chandra-ocr-2 يحقق التعرف الضوئي على الأحرف بدقة عالية.

برنامج تعليمي مجاني لوحدة المعالجة المركزية | حقق نموذج Supertonic-3 TTS 8.8 ألف نجمة، ويحتوي على حوالي 99 مليون معلمة فقط ويدعم 31 لغة.

ذات صلة الأخبار

حقق "حرية التعليق الصوتي" باستخدام 3 ثوانٍ فقط من الصوت: نموذج الكلام مفتوح المصدر Mistral Voxtral-4B-TTS-2603؛ وضع معيارًا جديدًا لجودة البيانات: Sutra 10B Pretraining.

دليل تعليمي عبر الإنترنت | يدعم أكثر من 600 لغة، تطبيق OmniVoice مفتوح المصدر من Xiaomi: استنساخ الصوت باستخدام 3-10 ثوانٍ فقط من الصوت المرجعي

سريع ودقيق! شركة Cohere تُصدر نموذج نسخ مفتوح المصدر؛ تحليل دقيق للسيناريوهات المعقدة: نموذج اللغة المرئي Chandra-ocr-2 يحقق التعرف الضوئي على الأحرف بدقة عالية.

برنامج تعليمي مجاني لوحدة المعالجة المركزية | حقق نموذج Supertonic-3 TTS 8.8 ألف نجمة، ويحتوي على حوالي 99 مليون معلمة فقط ويدعم 31 لغة.