برنامج تعليمي عبر الإنترنت | استنادًا إلى 5 ملايين ساعة من بيانات الصوت، يحقق Qwen3-TTS استنساخ الصوت وضبطه بدقة في 3 ثوانٍ.

منذ 4 أشهر

عندما لا يقتصر الذكاء الاصطناعي التوليدي على "توليد النصوص" بل يبدأ فعلاً "بالتحدث"، يرتقي الكلام من مجرد قناة معلومات إلى وسيلة تعبير قابلة للبرمجة والتعديل. من إنشاء محتوى متعدد اللغات إلى المساعدين الصوتيين الفوريين، ومن المذيعين الافتراضيين إلى الأنظمة التفاعلية الغامرة، أصبح تحويل النص إلى كلام (TTS) عنصراً أساسياً في نظام النموذج متعدد الوسائط.ومع ذلك، لجعل الآلة تتحدث بشكل طبيعي ومستقر وقابل للتحكم، والحفاظ على استجابة على مستوى أجزاء من الثانية في سيناريوهات البث، فإنها لا تتطلب فقط قدرات النمذجة الصوتية، ولكن أيضًا قوة شاملة في تصميم البنية وتحسين النظام.

وعلى طول مسار التطور التكنولوجي هذا، بدأ الجيل الجديد من النماذج في محاولة اختراق حدود تقنية تحويل النص إلى كلام التقليدية - ليس فقط السعي وراء دقة أعلى، ولكن أيضًا التأكيد على القدرة على التعميم متعدد اللغات والقدرة على التحكم الدقيق.يعتمد برنامج Qwen3-TTS، الذي تم طرحه مؤخرًا كمصدر مفتوح من قبل فريق Qwen، على بنية نموذج لغة ثنائي المسار (LM)، مما يسمح بالتحكم الدقيق في الكلام الناتج أثناء إجراء توليف الكلام في الوقت الفعلي.

يدعم نظام Qwen3-TTS تحديدًا استنساخ الصوت لمدة 3 ثوانٍ والتحكم الصوتي القائم على الوصف. وقد تم تدريبه على أكثر من 5 ملايين ساعة من البيانات الصوتية التي تغطي 10 لغات، وهو مزود بمحللين لكلمات الكلام.

* Qwen-TTS-Tokenizer-25Hz:باستخدام برنامج ترميز ذي دفتر ترميز واحد، يركز على تمثيل المحتوى الدلالي، ويمكن دمجه بسلاسة مع Qwen-Audio، ويحقق إعادة بناء شكل الموجة المتدفقة من خلال DiT على مستوى الكتلة.

* Qwen-TTS-Tokenizer-12Hz:بفضل تحقيق ضغط معدل البتات الشديد وإخراج البث ذي زمن الوصول المنخفض للغاية، استنادًا إلى تصميم متعدد الدفاتر بتردد 12.5 هرتز و16 طبقة وشبكة تلافيفية سببية خفيفة الوزن (شبكة تلافيفية سببية)، يمكنه تحقيق إخراج الحزمة الأولى على الفور في 97 مللي ثانية.

تُظهر النتائج التجريبية الواسعة أن هذه السلسلة من النماذج قد حققت أداءً متطورًا (SOTA) في العديد من الاختبارات المعيارية الموضوعية والذاتية، بما في ذلك مجموعة اختبار TTS متعددة اللغات و InstructTTSEval.

تم تحميل فيديو "Qwen3-TTS: عرض توضيحي عالي الجودة لتوليف الكلام متعدد اللغات قابل للتحكم" إلى قسم "الدروس التعليمية" على موقع HyperAI الإلكتروني. تعالَ وجرّب استنساخ الكلام في 3 ثوانٍ!

دروس تعليمية عبر الإنترنت:

https://go.hyper.ai/1xEOr

عرض الورقة:

https://go.hyper.ai/1X1F4

تشغيل تجريبي

1. بعد الدخول إلى الصفحة الرئيسية لموقع hyper.ai، حدد صفحة "الدروس التعليمية"، أو انقر فوق "عرض المزيد من الدروس التعليمية"، وحدد "Qwen3-TTS: عرض توضيحي عالي الجودة وقابل للتحكم في توليف الكلام متعدد اللغات"، وانقر فوق "تشغيل هذا البرنامج التعليمي عبر الإنترنت".

2. بعد إعادة توجيه الصفحة، انقر فوق "استنساخ" في الزاوية اليمنى العليا لاستنساخ البرنامج التعليمي في الحاوية الخاصة بك.

ملاحظة: يمكنك تبديل اللغات في الزاوية العلوية اليمنى من الصفحة. حاليًا، اللغتان الصينية والإنجليزية متاحتان. سيوضح هذا البرنامج التعليمي الخطوات باللغة الإنجليزية.

3. حدد صور "NVIDIA GeForce RTX 5090" و "PyTorch"، واختر "الدفع حسب الاستخدام" أو "الخطة اليومية/الخطة الأسبوعية/الخطة الشهرية" حسب الحاجة، ثم انقر فوق "متابعة تنفيذ المهمة".

تقدم HyperAI فوائد التسجيل للمستخدمين الجدد.مقابل $1 فقط، يمكنك الحصول على 20 ساعة من قوة الحوسبة RTX 5090 (السعر الأصلي $7).المورد صالح بشكل دائم.

4. انتظر حتى يتم تخصيص الموارد. بمجرد أن تتغير الحالة إلى "قيد التشغيل"، انقر فوق "فتح مساحة العمل" للدخول إلى مساحة عمل Jupyter.

عرض التأثير

1. بعد إعادة توجيه الصفحة، انقر على صفحة README على اليسار، ثم انقر فوق تشغيل في الأعلى.

2. بمجرد اكتمال العملية، انقر فوق عنوان API الموجود على اليمين للانتقال إلى صفحة العرض التوضيحي.

ما سبق هو البرنامج التعليمي الذي توصي به HyperAI هذه المرة. الجميع مدعوون للحضور وتجربته!

رابط البرنامج التعليمي:https://go.hyper.ai/1xEOr

ذات صلة الأخبار

دروس تعليمية عبر الإنترنت | حجم صغير، قوة برمجية كبيرة: جهاز Qwen3.6-27B يحقق إمكانيات برمجة على مستوى الأجهزة الرائدة

حقق "حرية التعليق الصوتي" باستخدام 3 ثوانٍ فقط من الصوت: نموذج الكلام مفتوح المصدر Mistral Voxtral-4B-TTS-2603؛ وضع معيارًا جديدًا لجودة البيانات: Sutra 10B Pretraining.

برنامج تعليمي عبر الإنترنت | أول وكيل نموذج مفتوح المصدر لسلسلة Qwen 3.6: إمكانيات برمجة محسّنة بشكل كبير، ومعلمات تفعيل لا تتجاوز 3 مليارات، متجاوزة Gemma4-31B

ملخص البرنامج التعليمي | نماذج صغيرة مفتوحة المصدر تحقق ذكاءً شاملاً يُضاهي GPT-5؛ تقييم شامل للنماذج الشائعة مثل Qwen 3.5/Gemma 4.

إنجازٌ ثوري في مجال تحويل النص إلى كلام بدون أخذ عينات! بضع ثوانٍ من الصوت المرجعي، يساعدك OmniVoice على استنساخ مئات اللغات بسهولة؛ 17 لغة دفعة واحدة: يحل MDPbench المشكلة الرئيسية لتحليل أنظمة النصوص ذات الموارد المحدودة.

برنامج تعليمي عبر الإنترنت | جامعة هوا تشونغ للعلوم والتكنولوجيا ومختبر شياوهونغشو هاي مفتوح المصدر dots.mocr، وهو نموذج OCR متطور يستعيد بنية المستند بشكل مثالي ويمكنه تحويل الرسومات إلى SVG.

خفيف الوزن للغاية، ومع ذلك بجودة صورة لا تقل عن سابقتها! ERNIE-Image-Turbo: وداعاً للانتظار الطويل، سرعة فائقة؛ نقدم لكم مقاييس ثنائية الأبعاد للإدراك والمعرفة: مجموعة بيانات OmniParsingBench الموحدة متعددة الوسائط لتحليل وتقييم البيانات من Alibaba متاحة الآن عبر الإنترنت.

دليل تعليمي عبر الإنترنت | يدعم أكثر من 600 لغة، تطبيق OmniVoice مفتوح المصدر من Xiaomi: استنساخ الصوت باستخدام 3-10 ثوانٍ فقط من الصوت المرجعي

برنامج تعليمي عبر الإنترنت | Qwen 3.5 27B: استخلاص قدرات الاستدلال من Claude 4.6 Opus، مع الموازنة بين جودة المخرجات العالية وسهولة النشر

HyperAI

برنامج تعليمي عبر الإنترنت | استنادًا إلى 5 ملايين ساعة من بيانات الصوت، يحقق Qwen3-TTS استنساخ الصوت وضبطه بدقة في 3 ثوانٍ.

منذ 4 أشهر

دروس تعليمية عبر الإنترنت:

https://go.hyper.ai/1xEOr

عرض الورقة:

https://go.hyper.ai/1X1F4

تشغيل تجريبي

عرض التأثير

1. بعد إعادة توجيه الصفحة، انقر على صفحة README على اليسار، ثم انقر فوق تشغيل في الأعلى.

2. بمجرد اكتمال العملية، انقر فوق عنوان API الموجود على اليمين للانتقال إلى صفحة العرض التوضيحي.

ما سبق هو البرنامج التعليمي الذي توصي به HyperAI هذه المرة. الجميع مدعوون للحضور وتجربته!

رابط البرنامج التعليمي:https://go.hyper.ai/1xEOr

ذات صلة الأخبار

دروس تعليمية عبر الإنترنت | حجم صغير، قوة برمجية كبيرة: جهاز Qwen3.6-27B يحقق إمكانيات برمجة على مستوى الأجهزة الرائدة

حقق "حرية التعليق الصوتي" باستخدام 3 ثوانٍ فقط من الصوت: نموذج الكلام مفتوح المصدر Mistral Voxtral-4B-TTS-2603؛ وضع معيارًا جديدًا لجودة البيانات: Sutra 10B Pretraining.

برنامج تعليمي عبر الإنترنت | أول وكيل نموذج مفتوح المصدر لسلسلة Qwen 3.6: إمكانيات برمجة محسّنة بشكل كبير، ومعلمات تفعيل لا تتجاوز 3 مليارات، متجاوزة Gemma4-31B

ملخص البرنامج التعليمي | نماذج صغيرة مفتوحة المصدر تحقق ذكاءً شاملاً يُضاهي GPT-5؛ تقييم شامل للنماذج الشائعة مثل Qwen 3.5/Gemma 4.

إنجازٌ ثوري في مجال تحويل النص إلى كلام بدون أخذ عينات! بضع ثوانٍ من الصوت المرجعي، يساعدك OmniVoice على استنساخ مئات اللغات بسهولة؛ 17 لغة دفعة واحدة: يحل MDPbench المشكلة الرئيسية لتحليل أنظمة النصوص ذات الموارد المحدودة.

برنامج تعليمي عبر الإنترنت | جامعة هوا تشونغ للعلوم والتكنولوجيا ومختبر شياوهونغشو هاي مفتوح المصدر dots.mocr، وهو نموذج OCR متطور يستعيد بنية المستند بشكل مثالي ويمكنه تحويل الرسومات إلى SVG.

خفيف الوزن للغاية، ومع ذلك بجودة صورة لا تقل عن سابقتها! ERNIE-Image-Turbo: وداعاً للانتظار الطويل، سرعة فائقة؛ نقدم لكم مقاييس ثنائية الأبعاد للإدراك والمعرفة: مجموعة بيانات OmniParsingBench الموحدة متعددة الوسائط لتحليل وتقييم البيانات من Alibaba متاحة الآن عبر الإنترنت.

دليل تعليمي عبر الإنترنت | يدعم أكثر من 600 لغة، تطبيق OmniVoice مفتوح المصدر من Xiaomi: استنساخ الصوت باستخدام 3-10 ثوانٍ فقط من الصوت المرجعي

Command Palette

برنامج تعليمي عبر الإنترنت | استنادًا إلى 5 ملايين ساعة من بيانات الصوت، يحقق Qwen3-TTS استنساخ الصوت وضبطه بدقة في 3 ثوانٍ.

تشغيل تجريبي

عرض التأثير

Command Palette

برنامج تعليمي عبر الإنترنت | استنادًا إلى 5 ملايين ساعة من بيانات الصوت، يحقق Qwen3-TTS استنساخ الصوت وضبطه بدقة في 3 ثوانٍ.

تشغيل تجريبي

عرض التأثير

ذات صلة الأخبار

دروس تعليمية عبر الإنترنت | حجم صغير، قوة برمجية كبيرة: جهاز Qwen3.6-27B يحقق إمكانيات برمجة على مستوى الأجهزة الرائدة

حقق "حرية التعليق الصوتي" باستخدام 3 ثوانٍ فقط من الصوت: نموذج الكلام مفتوح المصدر Mistral Voxtral-4B-TTS-2603؛ وضع معيارًا جديدًا لجودة البيانات: Sutra 10B Pretraining.

برنامج تعليمي عبر الإنترنت | أول وكيل نموذج مفتوح المصدر لسلسلة Qwen 3.6: إمكانيات برمجة محسّنة بشكل كبير، ومعلمات تفعيل لا تتجاوز 3 مليارات، متجاوزة Gemma4-31B

ملخص البرنامج التعليمي | نماذج صغيرة مفتوحة المصدر تحقق ذكاءً شاملاً يُضاهي GPT-5؛ تقييم شامل للنماذج الشائعة مثل Qwen 3.5/Gemma 4.

دليل تعليمي عبر الإنترنت | يدعم أكثر من 600 لغة، تطبيق OmniVoice مفتوح المصدر من Xiaomi: استنساخ الصوت باستخدام 3-10 ثوانٍ فقط من الصوت المرجعي

برنامج تعليمي عبر الإنترنت | Qwen 3.5 27B: استخلاص قدرات الاستدلال من Claude 4.6 Opus، مع الموازنة بين جودة المخرجات العالية وسهولة النشر

Command Palette

برنامج تعليمي عبر الإنترنت | استنادًا إلى 5 ملايين ساعة من بيانات الصوت، يحقق Qwen3-TTS استنساخ الصوت وضبطه بدقة في 3 ثوانٍ.

تشغيل تجريبي

عرض التأثير

ذات صلة الأخبار

دروس تعليمية عبر الإنترنت | حجم صغير، قوة برمجية كبيرة: جهاز Qwen3.6-27B يحقق إمكانيات برمجة على مستوى الأجهزة الرائدة

حقق "حرية التعليق الصوتي" باستخدام 3 ثوانٍ فقط من الصوت: نموذج الكلام مفتوح المصدر Mistral Voxtral-4B-TTS-2603؛ وضع معيارًا جديدًا لجودة البيانات: Sutra 10B Pretraining.

برنامج تعليمي عبر الإنترنت | أول وكيل نموذج مفتوح المصدر لسلسلة Qwen 3.6: إمكانيات برمجة محسّنة بشكل كبير، ومعلمات تفعيل لا تتجاوز 3 مليارات، متجاوزة Gemma4-31B

ملخص البرنامج التعليمي | نماذج صغيرة مفتوحة المصدر تحقق ذكاءً شاملاً يُضاهي GPT-5؛ تقييم شامل للنماذج الشائعة مثل Qwen 3.5/Gemma 4.

دليل تعليمي عبر الإنترنت | يدعم أكثر من 600 لغة، تطبيق OmniVoice مفتوح المصدر من Xiaomi: استنساخ الصوت باستخدام 3-10 ثوانٍ فقط من الصوت المرجعي

برنامج تعليمي عبر الإنترنت | Qwen 3.5 27B: استخلاص قدرات الاستدلال من Claude 4.6 Opus، مع الموازنة بين جودة المخرجات العالية وسهولة النشر

ذات صلة الأخبار

دروس تعليمية عبر الإنترنت | حجم صغير، قوة برمجية كبيرة: جهاز Qwen3.6-27B يحقق إمكانيات برمجة على مستوى الأجهزة الرائدة

حقق "حرية التعليق الصوتي" باستخدام 3 ثوانٍ فقط من الصوت: نموذج الكلام مفتوح المصدر Mistral Voxtral-4B-TTS-2603؛ وضع معيارًا جديدًا لجودة البيانات: Sutra 10B Pretraining.

برنامج تعليمي عبر الإنترنت | أول وكيل نموذج مفتوح المصدر لسلسلة Qwen 3.6: إمكانيات برمجة محسّنة بشكل كبير، ومعلمات تفعيل لا تتجاوز 3 مليارات، متجاوزة Gemma4-31B

ملخص البرنامج التعليمي | نماذج صغيرة مفتوحة المصدر تحقق ذكاءً شاملاً يُضاهي GPT-5؛ تقييم شامل للنماذج الشائعة مثل Qwen 3.5/Gemma 4.

دليل تعليمي عبر الإنترنت | يدعم أكثر من 600 لغة، تطبيق OmniVoice مفتوح المصدر من Xiaomi: استنساخ الصوت باستخدام 3-10 ثوانٍ فقط من الصوت المرجعي

برنامج تعليمي عبر الإنترنت | Qwen 3.5 27B: استخلاص قدرات الاستدلال من Claude 4.6 Opus، مع الموازنة بين جودة المخرجات العالية وسهولة النشر

ذات صلة الأخبار

دروس تعليمية عبر الإنترنت | حجم صغير، قوة برمجية كبيرة: جهاز Qwen3.6-27B يحقق إمكانيات برمجة على مستوى الأجهزة الرائدة

حقق "حرية التعليق الصوتي" باستخدام 3 ثوانٍ فقط من الصوت: نموذج الكلام مفتوح المصدر Mistral Voxtral-4B-TTS-2603؛ وضع معيارًا جديدًا لجودة البيانات: Sutra 10B Pretraining.

برنامج تعليمي عبر الإنترنت | أول وكيل نموذج مفتوح المصدر لسلسلة Qwen 3.6: إمكانيات برمجة محسّنة بشكل كبير، ومعلمات تفعيل لا تتجاوز 3 مليارات، متجاوزة Gemma4-31B

ملخص البرنامج التعليمي | نماذج صغيرة مفتوحة المصدر تحقق ذكاءً شاملاً يُضاهي GPT-5؛ تقييم شامل للنماذج الشائعة مثل Qwen 3.5/Gemma 4.

دليل تعليمي عبر الإنترنت | يدعم أكثر من 600 لغة، تطبيق OmniVoice مفتوح المصدر من Xiaomi: استنساخ الصوت باستخدام 3-10 ثوانٍ فقط من الصوت المرجعي

برنامج تعليمي عبر الإنترنت | Qwen 3.5 27B: استخلاص قدرات الاستدلال من Claude 4.6 Opus، مع الموازنة بين جودة المخرجات العالية وسهولة النشر