دروس تعليمية عبر الإنترنت | هنا يأتي CSM، ابتعد عن الطريق! توليد كلام أكثر وضوحًا، لا مزيد من الكلام المتأخر والممل والميكانيكي

عندما أتحدث مع المساعد الصوتي للذكاء الاصطناعي، أشعر دائمًا أن هناك شيئًا غريبًا. أجابوا على الأسئلة بسهولة، لكنهم افتقروا إلى القليل من "الإنسانية". نبرة الصوت باهتة، والتوقفات مفاجئة، وتتجمد أحيانًا في أماكن غير قابلة للتفسير. هذا الشعور اللاإنساني واللاإنساني هو في الواقع "تأثير الوادي الغريب" في العمل. عندما يكون صوت الذكاء الاصطناعي مشابهًا جدًا للصوت البشري ولكن ليس متسقًا تمامًا، فسوف يشعر المستخدمون بعدم الارتياح.
في الآونة الأخيرة، برز نموذج توليد الكلام CSM (نموذج الكلام المحادثة) الذي أطلقه فريق Sesame من بين العديد من نماذج الكلام.يستخدم النموذج بنية Llama الأساسية وفك تشفير صوتي خفيف الوزن، بالإضافة إلى إطار عمل Transformer الشامل، لتوليد أكواد صوتية RVQ استنادًا إلى النص والمدخلات الصوتية، ثم إخراج كلام سلس وطبيعي وعاطفي.إنشاء مساعد صوتي قادر على تلبية الاحتياجات العاطفية للمستخدمين.
بالمقارنة مع نماذج توليد الكلام بالذكاء الاصطناعي التقليدية، فإن CSM يفعل أكثر من مجرد توليد الصوت:
*فهم عاطفي أقوى:القدرة على تحليل السياق بشكل عميق وتعديل النغمة والتجويد بشكل مرن.
*إيقاع محادثة أكثر طبيعية:قم بضبط التفاصيل مثل التوقفات، والتأكيد، والمقاطعات، وما إلى ذلك لجعل المحادثات أكثر سلاسة.
*تجربة خالية من التأخير تقريبًا:تجعل هندسة الاستدلال الفعالة عملية توليد الكلام أقرب إلى الوقت الحقيقي وتحسن كفاءة التفاعل.
أصبح البرنامج التعليمي "نموذج توليد الكلام المحادثة CSM" متاحًا الآن على الموقع الرسمي لشركة HyperAI. تعالوا وانظروا إلى ذلك!
عنوان البرنامج التعليمي:
تشغيل تجريبي
1. قم بتسجيل الدخول إلى hyper.ai، وانتقل إلى صفحة البرامج التعليمية، وحدد CSM Conversational Speech Generation Model Demo، ثم انقر فوق تشغيل هذا البرنامج التعليمي عبر الإنترنت.


2. بعد الانتقال إلى الصفحة التالية، انقر فوق "استنساخ" في الزاوية اليمنى العليا لاستنساخ البرنامج التعليمي في الحاوية الخاصة بك.

3. حدد الصور "NVIDIA RTX 4090" و"PyTorch". أطلقت منصة OpenBayes طريقة فوترة جديدة. يمكنك اختيار "الدفع حسب الاستخدام" أو "الباقة اليومية/الأسبوعية/الشهرية" وفقًا لاحتياجاتك. انقر فوق "متابعة". يمكن للمستخدمين الجدد التسجيل باستخدام رابط الدعوة أدناه للحصول على 4 ساعات من RTX 4090 + 5 ساعات من وقت فراغ وحدة المعالجة المركزية!
رابط دعوة حصرية لـ HyperAI (انسخ وافتح في المتصفح):
https://go.openbayes.com/9S6Dr


4. انتظر حتى يتم تخصيص الموارد. تستغرق عملية الاستنساخ الأولى حوالي دقيقتين. عندما تتغير الحالة إلى "قيد التشغيل"، انقر فوق سهم الانتقال بجوار "عنوان API" للانتقال إلى صفحة العرض التوضيحي. نظرًا لأن النموذج كبير الحجم، يستغرق عرض واجهة WebUI حوالي 3 دقائق، وإلا فسيتم عرض "البوابة سيئة". يرجى ملاحظة أنه يجب على المستخدمين إكمال مصادقة الاسم الحقيقي قبل استخدام وظيفة الوصول إلى عنوان API.


عرض التأثير
قم باختيار أو تحميل الصوت الشخصي، وأدخل محتوى المحادثة، ثم انقر على "إنشاء محادثة" لإنشاء المحادثة.
*بشكل افتراضي، سيبدأ المتحدث أ الجولة الأولى من التحدث، يليه المتحدث أ والمتحدث ب بالتناوب في التواصل (يدعم حاليًا إنشاء المحتوى باللغة الإنجليزية فقط).

