دروس تعليمية عبر الإنترنت | هنا يأتي CSM، ابتعد عن الطريق! توليد كلام أكثر وضوحًا، لا مزيد من الكلام المتأخر والممل والميكانيكي

منذ عام واحد

عندما أتحدث مع المساعد الصوتي للذكاء الاصطناعي، أشعر دائمًا أن هناك شيئًا غريبًا. أجابوا على الأسئلة بسهولة، لكنهم افتقروا إلى القليل من "الإنسانية". نبرة الصوت باهتة، والتوقفات مفاجئة، وتتجمد أحيانًا في أماكن غير قابلة للتفسير. هذا الشعور اللاإنساني واللاإنساني هو في الواقع "تأثير الوادي الغريب" في العمل. عندما يكون صوت الذكاء الاصطناعي مشابهًا جدًا للصوت البشري ولكن ليس متسقًا تمامًا، فسوف يشعر المستخدمون بعدم الارتياح.

في الآونة الأخيرة، برز نموذج توليد الكلام CSM (نموذج الكلام المحادثة) الذي أطلقه فريق Sesame من بين العديد من نماذج الكلام.يستخدم النموذج بنية Llama الأساسية وفك تشفير صوتي خفيف الوزن، بالإضافة إلى إطار عمل Transformer الشامل، لتوليد أكواد صوتية RVQ استنادًا إلى النص والمدخلات الصوتية، ثم إخراج كلام سلس وطبيعي وعاطفي.إنشاء مساعد صوتي قادر على تلبية الاحتياجات العاطفية للمستخدمين.

بالمقارنة مع نماذج توليد الكلام بالذكاء الاصطناعي التقليدية، فإن CSM يفعل أكثر من مجرد توليد الصوت:

*فهم عاطفي أقوى:القدرة على تحليل السياق بشكل عميق وتعديل النغمة والتجويد بشكل مرن.

*إيقاع محادثة أكثر طبيعية:قم بضبط التفاصيل مثل التوقفات، والتأكيد، والمقاطعات، وما إلى ذلك لجعل المحادثات أكثر سلاسة.

*تجربة خالية من التأخير تقريبًا:تجعل هندسة الاستدلال الفعالة عملية توليد الكلام أقرب إلى الوقت الحقيقي وتحسن كفاءة التفاعل.

أصبح البرنامج التعليمي "نموذج توليد الكلام المحادثة CSM" متاحًا الآن على الموقع الرسمي لشركة HyperAI. تعالوا وانظروا إلى ذلك!

عنوان البرنامج التعليمي:

https://go.hyper.ai/e0HQn

تشغيل تجريبي

1. قم بتسجيل الدخول إلى hyper.ai، وانتقل إلى صفحة البرامج التعليمية، وحدد CSM Conversational Speech Generation Model Demo، ثم انقر فوق تشغيل هذا البرنامج التعليمي عبر الإنترنت.

2. بعد الانتقال إلى الصفحة التالية، انقر فوق "استنساخ" في الزاوية اليمنى العليا لاستنساخ البرنامج التعليمي في الحاوية الخاصة بك.

3. حدد الصور "NVIDIA RTX 4090" و"PyTorch". أطلقت منصة OpenBayes طريقة فوترة جديدة. يمكنك اختيار "الدفع حسب الاستخدام" أو "الباقة اليومية/الأسبوعية/الشهرية" وفقًا لاحتياجاتك. انقر فوق "متابعة". يمكن للمستخدمين الجدد التسجيل باستخدام رابط الدعوة أدناه للحصول على 4 ساعات من RTX 4090 + 5 ساعات من وقت فراغ وحدة المعالجة المركزية!

رابط دعوة حصرية لـ HyperAI (انسخ وافتح في المتصفح):

https://go.openbayes.com/9S6Dr

4. انتظر حتى يتم تخصيص الموارد. تستغرق عملية الاستنساخ الأولى حوالي دقيقتين. عندما تتغير الحالة إلى "قيد التشغيل"، انقر فوق سهم الانتقال بجوار "عنوان API" للانتقال إلى صفحة العرض التوضيحي. نظرًا لأن النموذج كبير الحجم، يستغرق عرض واجهة WebUI حوالي 3 دقائق، وإلا فسيتم عرض "البوابة سيئة". يرجى ملاحظة أنه يجب على المستخدمين إكمال مصادقة الاسم الحقيقي قبل استخدام وظيفة الوصول إلى عنوان API.

عرض التأثير

قم باختيار أو تحميل الصوت الشخصي، وأدخل محتوى المحادثة، ثم انقر على "إنشاء محادثة" لإنشاء المحادثة.

*بشكل افتراضي، سيبدأ المتحدث أ الجولة الأولى من التحدث، يليه المتحدث أ والمتحدث ب بالتناوب في التواصل (يدعم حاليًا إنشاء المحتوى باللغة الإنجليزية فقط).

ذات صلة الأخبار

هل يمكن للرموز التعبيرية التحكم في توليد الكلام؟ Irodori-TTS هو نظام تحويل النص إلى كلام ياباني يعتمد على بنية RF-DiT؛ مجموعات بيانات أمراض الجلد الأكزيما والسعفة: يدعم تصنيف الصور الطبية والتعلم بالنقل.

حقق "حرية التعليق الصوتي" باستخدام 3 ثوانٍ فقط من الصوت: نموذج الكلام مفتوح المصدر Mistral Voxtral-4B-TTS-2603؛ وضع معيارًا جديدًا لجودة البيانات: Sutra 10B Pretraining.

قامت شركة Tencent بفتح نموذج الترجمة Hy-MT1.5: 440MB يحقق قدرات ترجمة من الدرجة الأولى؛ وقام معهد ماساتشوستس للتكنولوجيا بإصدار MathNet بشكل مشترك: وهو معيار استدلال رياضي متعدد الوسائط يغطي 27000 مسألة رياضية حقيقية من أولمبياد الرياضيات.

سريع ودقيق! شركة Cohere تُصدر نموذج نسخ مفتوح المصدر؛ تحليل دقيق للسيناريوهات المعقدة: نموذج اللغة المرئي Chandra-ocr-2 يحقق التعرف الضوئي على الأحرف بدقة عالية.

برنامج تعليمي عبر الإنترنت | فريق جامعة هونغ كونغ يفتح برنامج DeepTutor، وهو مساعد تعليمي شخصي يُمكّن من التعلم التفاعلي الذي يغطي الفهم والاستدلال والتوليد من خلال التعاون بين عدة وكلاء

برنامج تعليمي مجاني عبر الإنترنت لوحدة المعالجة المركزية | وكيل هيرمس: تعلم الذاكرة طويلة المدى؟ يمكن لملحق تحسين الذاكرة TencentDB Agent Memory تخزين الحقائق والتفضيلات وحالات المهام وما إلى ذلك بشكل منفصل.

يحقق MiniCPM5-1B، الذي تم تدريبه باستخدام RL+OPD، أداءً متطورًا (SOTA) في مهام معقدة متعددة؛ تم إصدار مجموعة بيانات CHI-Bench لتقييم العوامل الطبية، المصممة لأتمتة عمليات الرعاية الصحية المعقدة.

إخراج الصور بأربع خطوات / جودة 4K / تسريع 6x، يستخدم PiD انتشار البكسل لتوحيد فك التشفير وإخراج الدقة الفائقة؛ SA-3DAO: مجموعة بيانات تحتوي على 1000 زوج من الصور الحقيقية المقترنة بشبكات ثلاثية الأبعاد مصممة يدويًا بواسطة فنانين.

خفيف الوزن للغاية، ومع ذلك بجودة صورة لا تقل عن سابقتها! ERNIE-Image-Turbo: وداعاً للانتظار الطويل، سرعة فائقة؛ نقدم لكم مقاييس ثنائية الأبعاد للإدراك والمعرفة: مجموعة بيانات OmniParsingBench الموحدة متعددة الوسائط لتحليل وتقييم البيانات من Alibaba متاحة الآن عبر الإنترنت.

HyperAI

دروس تعليمية عبر الإنترنت | هنا يأتي CSM، ابتعد عن الطريق! توليد كلام أكثر وضوحًا، لا مزيد من الكلام المتأخر والممل والميكانيكي

منذ عام واحد

معلومة

الذكاء الاصطناعي

متعدد الوسائط

بالمقارنة مع نماذج توليد الكلام بالذكاء الاصطناعي التقليدية، فإن CSM يفعل أكثر من مجرد توليد الصوت:

*فهم عاطفي أقوى:القدرة على تحليل السياق بشكل عميق وتعديل النغمة والتجويد بشكل مرن.

عنوان البرنامج التعليمي:

https://go.hyper.ai/e0HQn

تشغيل تجريبي

رابط دعوة حصرية لـ HyperAI (انسخ وافتح في المتصفح):

https://go.openbayes.com/9S6Dr

عرض التأثير

قم باختيار أو تحميل الصوت الشخصي، وأدخل محتوى المحادثة، ثم انقر على "إنشاء محادثة" لإنشاء المحادثة.

ذات صلة الأخبار

هل يمكن للرموز التعبيرية التحكم في توليد الكلام؟ Irodori-TTS هو نظام تحويل النص إلى كلام ياباني يعتمد على بنية RF-DiT؛ مجموعات بيانات أمراض الجلد الأكزيما والسعفة: يدعم تصنيف الصور الطبية والتعلم بالنقل.

حقق "حرية التعليق الصوتي" باستخدام 3 ثوانٍ فقط من الصوت: نموذج الكلام مفتوح المصدر Mistral Voxtral-4B-TTS-2603؛ وضع معيارًا جديدًا لجودة البيانات: Sutra 10B Pretraining.

قامت شركة Tencent بفتح نموذج الترجمة Hy-MT1.5: 440MB يحقق قدرات ترجمة من الدرجة الأولى؛ وقام معهد ماساتشوستس للتكنولوجيا بإصدار MathNet بشكل مشترك: وهو معيار استدلال رياضي متعدد الوسائط يغطي 27000 مسألة رياضية حقيقية من أولمبياد الرياضيات.

سريع ودقيق! شركة Cohere تُصدر نموذج نسخ مفتوح المصدر؛ تحليل دقيق للسيناريوهات المعقدة: نموذج اللغة المرئي Chandra-ocr-2 يحقق التعرف الضوئي على الأحرف بدقة عالية.

برنامج تعليمي عبر الإنترنت | فريق جامعة هونغ كونغ يفتح برنامج DeepTutor، وهو مساعد تعليمي شخصي يُمكّن من التعلم التفاعلي الذي يغطي الفهم والاستدلال والتوليد من خلال التعاون بين عدة وكلاء

برنامج تعليمي مجاني عبر الإنترنت لوحدة المعالجة المركزية | وكيل هيرمس: تعلم الذاكرة طويلة المدى؟ يمكن لملحق تحسين الذاكرة TencentDB Agent Memory تخزين الحقائق والتفضيلات وحالات المهام وما إلى ذلك بشكل منفصل.

يحقق MiniCPM5-1B، الذي تم تدريبه باستخدام RL+OPD، أداءً متطورًا (SOTA) في مهام معقدة متعددة؛ تم إصدار مجموعة بيانات CHI-Bench لتقييم العوامل الطبية، المصممة لأتمتة عمليات الرعاية الصحية المعقدة.

إخراج الصور بأربع خطوات / جودة 4K / تسريع 6x، يستخدم PiD انتشار البكسل لتوحيد فك التشفير وإخراج الدقة الفائقة؛ SA-3DAO: مجموعة بيانات تحتوي على 1000 زوج من الصور الحقيقية المقترنة بشبكات ثلاثية الأبعاد مصممة يدويًا بواسطة فنانين.

خفيف الوزن للغاية، ومع ذلك بجودة صورة لا تقل عن سابقتها! ERNIE-Image-Turbo: وداعاً للانتظار الطويل، سرعة فائقة؛ نقدم لكم مقاييس ثنائية الأبعاد للإدراك والمعرفة: مجموعة بيانات OmniParsingBench الموحدة متعددة الوسائط لتحليل وتقييم البيانات من Alibaba متاحة الآن عبر الإنترنت.

Command Palette

دروس تعليمية عبر الإنترنت | هنا يأتي CSM، ابتعد عن الطريق! توليد كلام أكثر وضوحًا، لا مزيد من الكلام المتأخر والممل والميكانيكي

تشغيل تجريبي

عرض التأثير

Command Palette

دروس تعليمية عبر الإنترنت | هنا يأتي CSM، ابتعد عن الطريق! توليد كلام أكثر وضوحًا، لا مزيد من الكلام المتأخر والممل والميكانيكي

تشغيل تجريبي

عرض التأثير

ذات صلة الأخبار

حقق "حرية التعليق الصوتي" باستخدام 3 ثوانٍ فقط من الصوت: نموذج الكلام مفتوح المصدر Mistral Voxtral-4B-TTS-2603؛ وضع معيارًا جديدًا لجودة البيانات: Sutra 10B Pretraining.

سريع ودقيق! شركة Cohere تُصدر نموذج نسخ مفتوح المصدر؛ تحليل دقيق للسيناريوهات المعقدة: نموذج اللغة المرئي Chandra-ocr-2 يحقق التعرف الضوئي على الأحرف بدقة عالية.

Command Palette

دروس تعليمية عبر الإنترنت | هنا يأتي CSM، ابتعد عن الطريق! توليد كلام أكثر وضوحًا، لا مزيد من الكلام المتأخر والممل والميكانيكي

تشغيل تجريبي

عرض التأثير

ذات صلة الأخبار

حقق "حرية التعليق الصوتي" باستخدام 3 ثوانٍ فقط من الصوت: نموذج الكلام مفتوح المصدر Mistral Voxtral-4B-TTS-2603؛ وضع معيارًا جديدًا لجودة البيانات: Sutra 10B Pretraining.

سريع ودقيق! شركة Cohere تُصدر نموذج نسخ مفتوح المصدر؛ تحليل دقيق للسيناريوهات المعقدة: نموذج اللغة المرئي Chandra-ocr-2 يحقق التعرف الضوئي على الأحرف بدقة عالية.

ذات صلة الأخبار

حقق "حرية التعليق الصوتي" باستخدام 3 ثوانٍ فقط من الصوت: نموذج الكلام مفتوح المصدر Mistral Voxtral-4B-TTS-2603؛ وضع معيارًا جديدًا لجودة البيانات: Sutra 10B Pretraining.

سريع ودقيق! شركة Cohere تُصدر نموذج نسخ مفتوح المصدر؛ تحليل دقيق للسيناريوهات المعقدة: نموذج اللغة المرئي Chandra-ocr-2 يحقق التعرف الضوئي على الأحرف بدقة عالية.

ذات صلة الأخبار

حقق "حرية التعليق الصوتي" باستخدام 3 ثوانٍ فقط من الصوت: نموذج الكلام مفتوح المصدر Mistral Voxtral-4B-TTS-2603؛ وضع معيارًا جديدًا لجودة البيانات: Sutra 10B Pretraining.

سريع ودقيق! شركة Cohere تُصدر نموذج نسخ مفتوح المصدر؛ تحليل دقيق للسيناريوهات المعقدة: نموذج اللغة المرئي Chandra-ocr-2 يحقق التعرف الضوئي على الأحرف بدقة عالية.