HyperAIHyperAI

يتيح تصميم الرمز المزدوج الفريد لجهاز VibeVoice-1.5B إنشاء محادثة مدتها 90 دقيقة بين أربعة أشخاص، مما يعيد تعريف حدود تقنية تحويل النص إلى كلام.

特色图像

أحدث نموذج VibeVoice-1.5B، مفتوح المصدر من مايكروسوفت، نقلة نوعية في مجال تقنية تحويل النص إلى كلام. يحتوي هذا النموذج على 1.5 مليار معلمة، ويمكنه توليد ما يصل إلى 90 دقيقة من الكلام الطبيعي للغاية في المرة الواحدة، ويدعم محاكاة المحادثات مع ما يصل إلى أربعة متحدثين مختلفين. يبلغ متوسط درجة الرأي (MOS) الرسمي في الاختبار الأعمى 4.5، وهو قريب من جودة الصوت البشري الحقيقي.

يكمن الابتكار الأساسي لجهاز VibeVoice-1.5B في بنيته الفريدة ذات الرمز المزدوج وتقنية فك التشفير الانتشاري.استنادًا إلى نموذج لغة Qwen2.5، يستخدم مُجزئًا صوتيًا (باستخدام بنية σ-VAE لتحقيق ضغط صوتي يصل إلى 3200 ضعف) ومُجزئًا دلاليًا (يركز على الحفاظ على المشاعر النصية والتوقفات) لمعالجة التسلسلات الصوتية بمعدل إطارات منخفض للغاية يبلغ 7.5 هرتز فقط. أما بالنسبة لفك التشفير، فيعمل مُجزئ انتشاري ذو 123 مليون معلمة، مقترنًا بخوارزمية DPM-Solver، على إعادة بناء تفاصيل صوتية عالية الدقة.

يستهدف VibeVoice-1.5B بشكل أساسي مجتمعات البحث والتطوير، حيث يوفر أدوات جديدة لإنتاج البودكاست، والذكاء الاصطناعي التفاعلي، وتوليد المحتوى الصوتي. مع ذلك، تجدر الإشارة إلى أنه يدعم حاليًا اللغتين الصينية والإنجليزية فقط، ولا يمكنه التعامل مع تداخل الكلام أو توليد مؤثرات صوتية في الخلفية. تُشدد مايكروسوفت صراحةً على استخدامه لأغراض البحث، وتُضيف إليه إخلاء مسؤولية صوتيًا وتقنية علامات مائية غير محسوسة لمنع سوء الاستخدام.

في الوقت الحالي،يعيد Microsoft VibeVoice-1.5B تعريف حدود تقنية TTSتم إطلاقه في قسم "البرنامج التعليمي" على الموقع الرسمي لشركة HyperAI.انقر على الرابط أدناه للنشر بنقرة واحدة.

رابط البرنامج التعليمي:

https://go.hyper.ai/6Ii8l

رابط دعوة حصرية لـ HyperAI (انسخ وافتح في المتصفح):

https://openbayes.com/console/signup?r=Ada0322_NR0n

تشغيل تجريبي

1. في الصفحة الرئيسية لـ hyper.ai، حدد صفحة البرامج التعليمية، واختر Microsoft VibeVoice-1.5B: إعادة تعريف حدود تقنية TTS، وانقر فوق تشغيل هذا البرنامج التعليمي عبر الإنترنت.

2. بعد الانتقال إلى الصفحة التالية، انقر فوق "استنساخ" في الزاوية اليمنى العليا لاستنساخ البرنامج التعليمي في الحاوية الخاصة بك.

٣. اختر "NVIDIA GeForce RTX 4090". توفر منصة OpenBayes أربعة خيارات للدفع: "الدفع الفوري" أو "يومي/أسبوعي/شهري" حسب احتياجاتك. بعد اختيار صورة "PyTorch"، انقر على "متابعة". يمكن للمستخدمين الجدد التسجيل باستخدام رابط الدعوة أدناه للحصول على ٤ ساعات مجانية من بطاقة RTX 4090 و٥ ساعات مجانية من استخدام المعالج!

رابط دعوة حصرية لـ HyperAI (انسخ وافتح في المتصفح):

https://openbayes.com/console/signup?r=Ada0322_NR0n

4. انتظر حتى يتم تخصيص الموارد. تستغرق عملية الاستنساخ الأولى حوالي دقيقتين. عندما تتغير الحالة إلى "قيد التشغيل"، انقر فوق سهم الانتقال بجوار "عنوان API" للانتقال إلى صفحة العرض التوضيحي. يرجى ملاحظة أنه يجب على المستخدمين إكمال مصادقة الاسم الحقيقي قبل استخدام وظيفة الوصول إلى عنوان API.

عرض التأثير

بعد الدخول إلى صفحة النموذج، حدد عدد المتحدثين في "عدد المتحدثين"، واضبط المتحدثين في "المتحدث 1-4"، وأدخل نص المحادثة في "نص المحادثة"، وأخيرًا انقر فوق "إنشاء بودكاست".

باستخدام محادثة بين أربعة أشخاص كمثال، أنشأ المؤلف صوتًا:

*اِسْتَدْعَى:

المتحدث ١: ما رأيكم بتجربة هذا المقهى الجديد في نهاية هذا الأسبوع؟ سمعت أن قهوتهم المُحضّرة بالتنقيط لذيذة.

المتحدث الثاني: بالتأكيد! لكن عليّ الذهاب إلى جلسة يوغا بعد ظهر السبت، لذا سأكون متفرغًا صباح الأحد.

المتحدث الثالث: صباح الأحد يناسبني أيضًا. أريد فقط أن أتحدث معكم عن بناء الفريق الأسبوع المقبل.

المتحدث الرابع: إذًا لا مشكلة! نلتقي عند مدخل المقهى الساعة العاشرة صباحًا يوم الأحد؟

المتحدث 1: رائع، سأحجز مقعدًا بجوار النافذة مسبقًا.

هذا هو البرنامج التعليمي المُوصى به لهذه المشكلة. نرحب بالجميع لتجربته بأنفسكم⬇️

رابط البرنامج التعليمي:https://go.hyper.ai/6Ii8l

احصل على أوراق بحثية عالية الجودة ومقالات تفسيرية متعمقة في مجال AI4S من عام 2023 إلى عام 2024 بنقرة واحدة⬇️

يتيح تصميم الرمز المزدوج الفريد لجهاز VibeVoice-1.5B إنشاء محادثة مدتها 90 دقيقة بين أربعة أشخاص، مما يعيد تعريف حدود تقنية تحويل النص إلى كلام. | الأخبار | HyperAI