دليل تعليمي عبر الإنترنت | يدعم أكثر من 600 لغة، تطبيق OmniVoice مفتوح المصدر من Xiaomi: استنساخ الصوت باستخدام 3-10 ثوانٍ فقط من الصوت المرجعي

منذ 2 أشهر

مع التطور السريع لتقنية الصوت بالذكاء الاصطناعي، تنتقل نماذج تحويل النص إلى كلام من مجرد "القدرة على التحدث" إلى "التواصل بشكل طبيعي مثل شخص حقيقي". ومع ذلك، لا تزال الأنظمة الحالية تواجه عمومًا مشاكل مثل روابط التوليد المعقدة، وتكاليف التدريب العالية، والقدرة المحدودة على التعميم عبر اللغات من حيث التغطية متعددة اللغات، واستنساخ الكلام بدون عينة، ودعم اللهجات واللهجات المعقدة.

في هذا السياق، يُمثل إطلاق OmniVoice نقلة نوعية في مجال توليد الكلام متعدد اللغات. يدعم هذا النموذج، الذي طوره فريق Kaldi من الجيل التالي في مختبر Xiaomi AI Lab، أكثر من 600 لغة، ويتميز بقدرات استنساخ الصوت، وتصميم الصوت، والصوت التلقائي. بالمقارنة مع عملية التوليد التقليدية ذات المرحلتين "نص ← دلالات ← صوتيات" الشائعة في نماذج تحويل النص إلى كلام، يستخدم OmniVoice بنية منفصلة غير ذاتية التراجع (NAR) تُشبه نموذج اللغة الانتشارية، حيث يربط النص مباشرةً برموز صوتية متعددة في دفتر الترميز، مما يُبسط عملية توليد الكلام بشكل كبير.

لا يقتصر هذا التغيير المعماري على تقليل اختناق الأداء في نماذج NAR المنفصلة التقليدية في العمليات المعقدة، بل يمكّن OmniVoice أيضًا من تحقيق أداء أفضل في طبيعية الكلام ووضوحه واتساقه عبر اللغات. في الوقت نفسه، يُقدّم النموذج استراتيجية تدريب قناع عشوائي لدفتر الترميز الكامل، ويتم تهيئته بناءً على نموذج لغوي كبير مُدرّب مسبقًا، مما يُحسّن كفاءة التدريب ويعزز جودة توليد الكلام.

والأهم من ذلك، أن OmniVoice ليس مجرد نموذج "متعدد اللغات" لتحويل النص إلى كلام. فهو لا يغطي اللغات الشائعة فقط، مثل الصينية والإنجليزية واليابانية والكورية، بل يشمل أيضًا اللهجات الصينية، مثل لهجة خنان ولهجة سيتشوان واللهجة الشمالية الشرقية، بالإضافة إلى مختلف اللهجات الإنجليزية، مثل اللهجة الأمريكية والبريطانية والأسترالية والهندية. وبفضل قدرته على استنساخ الكلام دون الحاجة إلى عينات صوتية، والتي لا تتطلب سوى بضع ثوانٍ من الصوت المرجعي، يُظهر OmniVoice إمكانات تطبيقية هائلة في مجالات مثل التعليق الصوتي بالذكاء الاصطناعي، والشخصيات الرقمية، وإنشاء المحتوى متعدد اللغات، والتفاعل الصوتي العالمي.

حالياً، أطلق قسم البرامج التعليمية في الموقع الرسمي لشركة HyperAI (hyper.ai) برنامج "OmniVoice: High-quality TTS supports 600+ language"، والذي يمكن تشغيله بنقرة واحدة ونشره بحواجز دخول منخفضة.

تشغيل عبر الإنترنت:

https://go.hyper.ai/oxpij

المزيد من الدروس التعليمية عبر الإنترنت:

https://hyper.ai/notebooks

نرحب بكم لزيارة موقعنا الإلكتروني الرسمي لمزيد من المعلومات:

https://hyper.ai

تشغيل تجريبي

1. بعد الدخول إلى الصفحة الرئيسية لموقع hyper.ai، حدد صفحة "الدروس التعليمية"، أو انقر فوق "عرض المزيد من الدروس التعليمية"، وحدد "OmniVoice: نظام تحويل النص إلى كلام عالي الجودة يدعم أكثر من 600 لغة"، وانقر فوق "تشغيل هذا البرنامج التعليمي".

2. بعد إعادة توجيه الصفحة، انقر فوق "استنساخ" في الزاوية اليمنى العليا لاستنساخ البرنامج التعليمي في الحاوية الخاصة بك.

ملاحظة: يمكنك تبديل اللغات في الزاوية العلوية اليمنى من الصفحة. حاليًا، اللغتان الصينية والإنجليزية متاحتان. سيوضح هذا البرنامج التعليمي الخطوات باللغة الإنجليزية.

3. حدد صور "NVIDIA RTX 5090" و "PyTorch"، وانقر فوق "متابعة تنفيذ المهمة".

تقدم HyperAI مكافأة تسجيل للمستخدمين الجدد: مقابل $1 فقط، يمكنك الحصول على 20 ساعة من قوة الحوسبة RTX 5090 (بسعر أصلي $7)، والموارد صالحة إلى أجل غير مسمى.

4. انتظر حتى يتم تخصيص الموارد. بمجرد أن تتغير الحالة إلى "قيد التشغيل"، انقر فوق "فتح مساحة العمل" للدخول إلى مساحة عمل Jupyter.

عرض التأثير

1. بعد إعادة توجيه الصفحة، انقر على ملف README الموجود على اليسار، ثم انقر على تشغيل في الأعلى.

2. بمجرد اكتمال العملية، انقر فوق عنوان API الموجود على اليمين للانتقال إلى صفحة العرض التوضيحي.

ذات صلة الأخبار

إنجازٌ ثوري في مجال تحويل النص إلى كلام بدون أخذ عينات! بضع ثوانٍ من الصوت المرجعي، يساعدك OmniVoice على استنساخ مئات اللغات بسهولة؛ 17 لغة دفعة واحدة: يحل MDPbench المشكلة الرئيسية لتحليل أنظمة النصوص ذات الموارد المحدودة.

قامت شركة Tencent بفتح نموذج الترجمة Hy-MT1.5: 440MB يحقق قدرات ترجمة من الدرجة الأولى؛ وقام معهد ماساتشوستس للتكنولوجيا بإصدار MathNet بشكل مشترك: وهو معيار استدلال رياضي متعدد الوسائط يغطي 27000 مسألة رياضية حقيقية من أولمبياد الرياضيات.

حقق "حرية التعليق الصوتي" باستخدام 3 ثوانٍ فقط من الصوت: نموذج الكلام مفتوح المصدر Mistral Voxtral-4B-TTS-2603؛ وضع معيارًا جديدًا لجودة البيانات: Sutra 10B Pretraining.

برنامج تعليمي مجاني لوحدة المعالجة المركزية | حقق نموذج Supertonic-3 TTS 8.8 ألف نجمة، ويحتوي على حوالي 99 مليون معلمة فقط ويدعم 31 لغة.

سريع ودقيق! شركة Cohere تُصدر نموذج نسخ مفتوح المصدر؛ تحليل دقيق للسيناريوهات المعقدة: نموذج اللغة المرئي Chandra-ocr-2 يحقق التعرف الضوئي على الأحرف بدقة عالية.

برنامج تعليمي عبر الإنترنت | فريق جامعة هونغ كونغ يفتح برنامج DeepTutor، وهو مساعد تعليمي شخصي يُمكّن من التعلم التفاعلي الذي يغطي الفهم والاستدلال والتوليد من خلال التعاون بين عدة وكلاء

دليل تعليمي عبر الإنترنت | دليل شامل لتتبع التعليمات/الاستدلال/البرمجة: ميسترال ميديوم 3.5 ينقل وكلاء البرمجة إلى السحابة

برنامج تعليمي مجاني عبر الإنترنت لوحدة المعالجة المركزية | وكيل هيرمس: تعلم الذاكرة طويلة المدى؟ يمكن لملحق تحسين الذاكرة TencentDB Agent Memory تخزين الحقائق والتفضيلات وحالات المهام وما إلى ذلك بشكل منفصل.

برنامج تعليمي عبر الإنترنت | تعديل ضخم باستخدام بطاقة SIM واحدة: MiniCPM-V-4.6، نموذج مفتوح المصدر بحجم 1.3 مليار يدعم فهم الصور/فهم الفيديو/التعرف الضوئي على الأحرف/الحوار متعدد الوسائط متعدد الأدوار (باستخدام Wallfacer ومكتبات مفتوحة المصدر أخرى).

HyperAI

دليل تعليمي عبر الإنترنت | يدعم أكثر من 600 لغة، تطبيق OmniVoice مفتوح المصدر من Xiaomi: استنساخ الصوت باستخدام 3-10 ثوانٍ فقط من الصوت المرجعي

منذ 2 أشهر

معلومة

الذكاء الاصطناعي

Text-to-Speech

تشغيل عبر الإنترنت:

https://go.hyper.ai/oxpij

المزيد من الدروس التعليمية عبر الإنترنت:

https://hyper.ai/notebooks

نرحب بكم لزيارة موقعنا الإلكتروني الرسمي لمزيد من المعلومات:

https://hyper.ai

تشغيل تجريبي

3. حدد صور "NVIDIA RTX 5090" و "PyTorch"، وانقر فوق "متابعة تنفيذ المهمة".

عرض التأثير

1. بعد إعادة توجيه الصفحة، انقر على ملف README الموجود على اليسار، ثم انقر على تشغيل في الأعلى.

2. بمجرد اكتمال العملية، انقر فوق عنوان API الموجود على اليمين للانتقال إلى صفحة العرض التوضيحي.

ذات صلة الأخبار

إنجازٌ ثوري في مجال تحويل النص إلى كلام بدون أخذ عينات! بضع ثوانٍ من الصوت المرجعي، يساعدك OmniVoice على استنساخ مئات اللغات بسهولة؛ 17 لغة دفعة واحدة: يحل MDPbench المشكلة الرئيسية لتحليل أنظمة النصوص ذات الموارد المحدودة.

قامت شركة Tencent بفتح نموذج الترجمة Hy-MT1.5: 440MB يحقق قدرات ترجمة من الدرجة الأولى؛ وقام معهد ماساتشوستس للتكنولوجيا بإصدار MathNet بشكل مشترك: وهو معيار استدلال رياضي متعدد الوسائط يغطي 27000 مسألة رياضية حقيقية من أولمبياد الرياضيات.

حقق "حرية التعليق الصوتي" باستخدام 3 ثوانٍ فقط من الصوت: نموذج الكلام مفتوح المصدر Mistral Voxtral-4B-TTS-2603؛ وضع معيارًا جديدًا لجودة البيانات: Sutra 10B Pretraining.

برنامج تعليمي مجاني لوحدة المعالجة المركزية | حقق نموذج Supertonic-3 TTS 8.8 ألف نجمة، ويحتوي على حوالي 99 مليون معلمة فقط ويدعم 31 لغة.

سريع ودقيق! شركة Cohere تُصدر نموذج نسخ مفتوح المصدر؛ تحليل دقيق للسيناريوهات المعقدة: نموذج اللغة المرئي Chandra-ocr-2 يحقق التعرف الضوئي على الأحرف بدقة عالية.

برنامج تعليمي عبر الإنترنت | فريق جامعة هونغ كونغ يفتح برنامج DeepTutor، وهو مساعد تعليمي شخصي يُمكّن من التعلم التفاعلي الذي يغطي الفهم والاستدلال والتوليد من خلال التعاون بين عدة وكلاء

دليل تعليمي عبر الإنترنت | دليل شامل لتتبع التعليمات/الاستدلال/البرمجة: ميسترال ميديوم 3.5 ينقل وكلاء البرمجة إلى السحابة

برنامج تعليمي مجاني عبر الإنترنت لوحدة المعالجة المركزية | وكيل هيرمس: تعلم الذاكرة طويلة المدى؟ يمكن لملحق تحسين الذاكرة TencentDB Agent Memory تخزين الحقائق والتفضيلات وحالات المهام وما إلى ذلك بشكل منفصل.

برنامج تعليمي عبر الإنترنت | تعديل ضخم باستخدام بطاقة SIM واحدة: MiniCPM-V-4.6، نموذج مفتوح المصدر بحجم 1.3 مليار يدعم فهم الصور/فهم الفيديو/التعرف الضوئي على الأحرف/الحوار متعدد الوسائط متعدد الأدوار (باستخدام Wallfacer ومكتبات مفتوحة المصدر أخرى).

Command Palette

دليل تعليمي عبر الإنترنت | يدعم أكثر من 600 لغة، تطبيق OmniVoice مفتوح المصدر من Xiaomi: استنساخ الصوت باستخدام 3-10 ثوانٍ فقط من الصوت المرجعي

تشغيل تجريبي

عرض التأثير

Command Palette

دليل تعليمي عبر الإنترنت | يدعم أكثر من 600 لغة، تطبيق OmniVoice مفتوح المصدر من Xiaomi: استنساخ الصوت باستخدام 3-10 ثوانٍ فقط من الصوت المرجعي

تشغيل تجريبي

عرض التأثير

ذات صلة الأخبار

حقق "حرية التعليق الصوتي" باستخدام 3 ثوانٍ فقط من الصوت: نموذج الكلام مفتوح المصدر Mistral Voxtral-4B-TTS-2603؛ وضع معيارًا جديدًا لجودة البيانات: Sutra 10B Pretraining.

برنامج تعليمي مجاني لوحدة المعالجة المركزية | حقق نموذج Supertonic-3 TTS 8.8 ألف نجمة، ويحتوي على حوالي 99 مليون معلمة فقط ويدعم 31 لغة.

سريع ودقيق! شركة Cohere تُصدر نموذج نسخ مفتوح المصدر؛ تحليل دقيق للسيناريوهات المعقدة: نموذج اللغة المرئي Chandra-ocr-2 يحقق التعرف الضوئي على الأحرف بدقة عالية.

دليل تعليمي عبر الإنترنت | دليل شامل لتتبع التعليمات/الاستدلال/البرمجة: ميسترال ميديوم 3.5 ينقل وكلاء البرمجة إلى السحابة

Command Palette

دليل تعليمي عبر الإنترنت | يدعم أكثر من 600 لغة، تطبيق OmniVoice مفتوح المصدر من Xiaomi: استنساخ الصوت باستخدام 3-10 ثوانٍ فقط من الصوت المرجعي

تشغيل تجريبي

عرض التأثير

ذات صلة الأخبار

حقق "حرية التعليق الصوتي" باستخدام 3 ثوانٍ فقط من الصوت: نموذج الكلام مفتوح المصدر Mistral Voxtral-4B-TTS-2603؛ وضع معيارًا جديدًا لجودة البيانات: Sutra 10B Pretraining.

برنامج تعليمي مجاني لوحدة المعالجة المركزية | حقق نموذج Supertonic-3 TTS 8.8 ألف نجمة، ويحتوي على حوالي 99 مليون معلمة فقط ويدعم 31 لغة.

سريع ودقيق! شركة Cohere تُصدر نموذج نسخ مفتوح المصدر؛ تحليل دقيق للسيناريوهات المعقدة: نموذج اللغة المرئي Chandra-ocr-2 يحقق التعرف الضوئي على الأحرف بدقة عالية.

دليل تعليمي عبر الإنترنت | دليل شامل لتتبع التعليمات/الاستدلال/البرمجة: ميسترال ميديوم 3.5 ينقل وكلاء البرمجة إلى السحابة

ذات صلة الأخبار

حقق "حرية التعليق الصوتي" باستخدام 3 ثوانٍ فقط من الصوت: نموذج الكلام مفتوح المصدر Mistral Voxtral-4B-TTS-2603؛ وضع معيارًا جديدًا لجودة البيانات: Sutra 10B Pretraining.

برنامج تعليمي مجاني لوحدة المعالجة المركزية | حقق نموذج Supertonic-3 TTS 8.8 ألف نجمة، ويحتوي على حوالي 99 مليون معلمة فقط ويدعم 31 لغة.

سريع ودقيق! شركة Cohere تُصدر نموذج نسخ مفتوح المصدر؛ تحليل دقيق للسيناريوهات المعقدة: نموذج اللغة المرئي Chandra-ocr-2 يحقق التعرف الضوئي على الأحرف بدقة عالية.

دليل تعليمي عبر الإنترنت | دليل شامل لتتبع التعليمات/الاستدلال/البرمجة: ميسترال ميديوم 3.5 ينقل وكلاء البرمجة إلى السحابة

ذات صلة الأخبار

حقق "حرية التعليق الصوتي" باستخدام 3 ثوانٍ فقط من الصوت: نموذج الكلام مفتوح المصدر Mistral Voxtral-4B-TTS-2603؛ وضع معيارًا جديدًا لجودة البيانات: Sutra 10B Pretraining.

برنامج تعليمي مجاني لوحدة المعالجة المركزية | حقق نموذج Supertonic-3 TTS 8.8 ألف نجمة، ويحتوي على حوالي 99 مليون معلمة فقط ويدعم 31 لغة.

سريع ودقيق! شركة Cohere تُصدر نموذج نسخ مفتوح المصدر؛ تحليل دقيق للسيناريوهات المعقدة: نموذج اللغة المرئي Chandra-ocr-2 يحقق التعرف الضوئي على الأحرف بدقة عالية.

دليل تعليمي عبر الإنترنت | دليل شامل لتتبع التعليمات/الاستدلال/البرمجة: ميسترال ميديوم 3.5 ينقل وكلاء البرمجة إلى السحابة