HyperAIHyperAI

Command Palette

Search for a command to run...

دليل تعليمي عبر الإنترنت | يدعم أكثر من 600 لغة، تطبيق OmniVoice مفتوح المصدر من Xiaomi: استنساخ الصوت باستخدام 3-10 ثوانٍ فقط من الصوت المرجعي

مع التطور السريع لتقنية الصوت بالذكاء الاصطناعي، تنتقل نماذج تحويل النص إلى كلام من مجرد "القدرة على التحدث" إلى "التواصل بشكل طبيعي مثل شخص حقيقي". ومع ذلك، لا تزال الأنظمة الحالية تواجه عمومًا مشاكل مثل روابط التوليد المعقدة، وتكاليف التدريب العالية، والقدرة المحدودة على التعميم عبر اللغات من حيث التغطية متعددة اللغات، واستنساخ الكلام بدون عينة، ودعم اللهجات واللهجات المعقدة.

في هذا السياق، يُمثل إطلاق OmniVoice نقلة نوعية في مجال توليد الكلام متعدد اللغات. يدعم هذا النموذج، الذي طوره فريق Kaldi من الجيل التالي في مختبر Xiaomi AI Lab، أكثر من 600 لغة، ويتميز بقدرات استنساخ الصوت، وتصميم الصوت، والصوت التلقائي. بالمقارنة مع عملية التوليد التقليدية ذات المرحلتين "نص ← دلالات ← صوتيات" الشائعة في نماذج تحويل النص إلى كلام، يستخدم OmniVoice بنية منفصلة غير ذاتية التراجع (NAR) تُشبه نموذج اللغة الانتشارية، حيث يربط النص مباشرةً برموز صوتية متعددة في دفتر الترميز، مما يُبسط عملية توليد الكلام بشكل كبير.

لا يقتصر هذا التغيير المعماري على تقليل اختناق الأداء في نماذج NAR المنفصلة التقليدية في العمليات المعقدة، بل يمكّن OmniVoice أيضًا من تحقيق أداء أفضل في طبيعية الكلام ووضوحه واتساقه عبر اللغات. في الوقت نفسه، يُقدّم النموذج استراتيجية تدريب قناع عشوائي لدفتر الترميز الكامل، ويتم تهيئته بناءً على نموذج لغوي كبير مُدرّب مسبقًا، مما يُحسّن كفاءة التدريب ويعزز جودة توليد الكلام.

والأهم من ذلك، أن OmniVoice ليس مجرد نموذج "متعدد اللغات" لتحويل النص إلى كلام. فهو لا يغطي اللغات الشائعة فقط، مثل الصينية والإنجليزية واليابانية والكورية، بل يشمل أيضًا اللهجات الصينية، مثل لهجة خنان ولهجة سيتشوان واللهجة الشمالية الشرقية، بالإضافة إلى مختلف اللهجات الإنجليزية، مثل اللهجة الأمريكية والبريطانية والأسترالية والهندية. وبفضل قدرته على استنساخ الكلام دون الحاجة إلى عينات صوتية، والتي لا تتطلب سوى بضع ثوانٍ من الصوت المرجعي، يُظهر OmniVoice إمكانات تطبيقية هائلة في مجالات مثل التعليق الصوتي بالذكاء الاصطناعي، والشخصيات الرقمية، وإنشاء المحتوى متعدد اللغات، والتفاعل الصوتي العالمي.

حالياً، أطلق قسم البرامج التعليمية في الموقع الرسمي لشركة HyperAI (hyper.ai) برنامج "OmniVoice: High-quality TTS supports 600+ language"، والذي يمكن تشغيله بنقرة واحدة ونشره بحواجز دخول منخفضة.

تشغيل عبر الإنترنت:

https://go.hyper.ai/oxpij

مثال توضيحي

المزيد من الدروس التعليمية عبر الإنترنت:

https://hyper.ai/notebooks

نرحب بكم لزيارة موقعنا الإلكتروني الرسمي لمزيد من المعلومات:

https://hyper.ai

تشغيل تجريبي

1. بعد الدخول إلى الصفحة الرئيسية لموقع hyper.ai، حدد صفحة "الدروس التعليمية"، أو انقر فوق "عرض المزيد من الدروس التعليمية"، وحدد "OmniVoice: نظام تحويل النص إلى كلام عالي الجودة يدعم أكثر من 600 لغة"، وانقر فوق "تشغيل هذا البرنامج التعليمي".

2. بعد إعادة توجيه الصفحة، انقر فوق "استنساخ" في الزاوية اليمنى العليا لاستنساخ البرنامج التعليمي في الحاوية الخاصة بك.

ملاحظة: يمكنك تبديل اللغات في الزاوية العلوية اليمنى من الصفحة. حاليًا، اللغتان الصينية والإنجليزية متاحتان. سيوضح هذا البرنامج التعليمي الخطوات باللغة الإنجليزية.

3. حدد صور "NVIDIA RTX 5090" و "PyTorch"، وانقر فوق "متابعة تنفيذ المهمة".

تقدم HyperAI مكافأة تسجيل للمستخدمين الجدد: مقابل $1 فقط، يمكنك الحصول على 20 ساعة من قوة الحوسبة RTX 5090 (بسعر أصلي $7)، والموارد صالحة إلى أجل غير مسمى.

4. انتظر حتى يتم تخصيص الموارد. بمجرد أن تتغير الحالة إلى "قيد التشغيل"، انقر فوق "فتح مساحة العمل" للدخول إلى مساحة عمل Jupyter.

عرض التأثير

1. بعد إعادة توجيه الصفحة، انقر على ملف README الموجود على اليسار، ثم انقر على تشغيل في الأعلى.

2. بمجرد اكتمال العملية، انقر فوق عنوان API الموجود على اليمين للانتقال إلى صفحة العرض التوضيحي.