HyperAIHyperAI

Command Palette

Search for a command to run...

برنامج تعليمي عبر الإنترنت | استنادًا إلى 5 ملايين ساعة من بيانات الصوت، يحقق Qwen3-TTS استنساخ الصوت وضبطه بدقة في 3 ثوانٍ.

Featured Image

عندما لا يقتصر الذكاء الاصطناعي التوليدي على "توليد النصوص" بل يبدأ فعلاً "بالتحدث"، يرتقي الكلام من مجرد قناة معلومات إلى وسيلة تعبير قابلة للبرمجة والتعديل. من إنشاء محتوى متعدد اللغات إلى المساعدين الصوتيين الفوريين، ومن المذيعين الافتراضيين إلى الأنظمة التفاعلية الغامرة، أصبح تحويل النص إلى كلام (TTS) عنصراً أساسياً في نظام النموذج متعدد الوسائط.ومع ذلك، لجعل الآلة تتحدث بشكل طبيعي ومستقر وقابل للتحكم، والحفاظ على استجابة على مستوى أجزاء من الثانية في سيناريوهات البث، فإنها لا تتطلب فقط قدرات النمذجة الصوتية، ولكن أيضًا قوة شاملة في تصميم البنية وتحسين النظام.

وعلى طول مسار التطور التكنولوجي هذا، بدأ الجيل الجديد من النماذج في محاولة اختراق حدود تقنية تحويل النص إلى كلام التقليدية - ليس فقط السعي وراء دقة أعلى، ولكن أيضًا التأكيد على القدرة على التعميم متعدد اللغات والقدرة على التحكم الدقيق.يعتمد برنامج Qwen3-TTS، الذي تم طرحه مؤخرًا كمصدر مفتوح من قبل فريق Qwen، على بنية نموذج لغة ثنائي المسار (LM)، مما يسمح بالتحكم الدقيق في الكلام الناتج أثناء إجراء توليف الكلام في الوقت الفعلي.

يدعم نظام Qwen3-TTS تحديدًا استنساخ الصوت لمدة 3 ثوانٍ والتحكم الصوتي القائم على الوصف. وقد تم تدريبه على أكثر من 5 ملايين ساعة من البيانات الصوتية التي تغطي 10 لغات، وهو مزود بمحللين لكلمات الكلام.

* Qwen-TTS-Tokenizer-25Hz:باستخدام برنامج ترميز ذي دفتر ترميز واحد، يركز على تمثيل المحتوى الدلالي، ويمكن دمجه بسلاسة مع Qwen-Audio، ويحقق إعادة بناء شكل الموجة المتدفقة من خلال DiT على مستوى الكتلة.

* Qwen-TTS-Tokenizer-12Hz:بفضل تحقيق ضغط معدل البتات الشديد وإخراج البث ذي زمن الوصول المنخفض للغاية، استنادًا إلى تصميم متعدد الدفاتر بتردد 12.5 هرتز و16 طبقة وشبكة تلافيفية سببية خفيفة الوزن (شبكة تلافيفية سببية)، يمكنه تحقيق إخراج الحزمة الأولى على الفور في 97 مللي ثانية.

تُظهر النتائج التجريبية الواسعة أن هذه السلسلة من النماذج قد حققت أداءً متطورًا (SOTA) في العديد من الاختبارات المعيارية الموضوعية والذاتية، بما في ذلك مجموعة اختبار TTS متعددة اللغات و InstructTTSEval.

تم تحميل فيديو "Qwen3-TTS: عرض توضيحي عالي الجودة لتوليف الكلام متعدد اللغات قابل للتحكم" إلى قسم "الدروس التعليمية" على موقع HyperAI الإلكتروني. تعالَ وجرّب استنساخ الكلام في 3 ثوانٍ!

دروس تعليمية عبر الإنترنت:

https://go.hyper.ai/1xEOr

عرض الورقة:

https://go.hyper.ai/1X1F4

تشغيل تجريبي

1. بعد الدخول إلى الصفحة الرئيسية لموقع hyper.ai، حدد صفحة "الدروس التعليمية"، أو انقر فوق "عرض المزيد من الدروس التعليمية"، وحدد "Qwen3-TTS: عرض توضيحي عالي الجودة وقابل للتحكم في توليف الكلام متعدد اللغات"، وانقر فوق "تشغيل هذا البرنامج التعليمي عبر الإنترنت".

2. بعد إعادة توجيه الصفحة، انقر فوق "استنساخ" في الزاوية اليمنى العليا لاستنساخ البرنامج التعليمي في الحاوية الخاصة بك.

ملاحظة: يمكنك تبديل اللغات في الزاوية العلوية اليمنى من الصفحة. حاليًا، اللغتان الصينية والإنجليزية متاحتان. سيوضح هذا البرنامج التعليمي الخطوات باللغة الإنجليزية.

3. حدد صور "NVIDIA GeForce RTX 5090" و "PyTorch"، واختر "الدفع حسب الاستخدام" أو "الخطة اليومية/الخطة الأسبوعية/الخطة الشهرية" حسب الحاجة، ثم انقر فوق "متابعة تنفيذ المهمة".

تقدم HyperAI فوائد التسجيل للمستخدمين الجدد.مقابل $1 فقط، يمكنك الحصول على 20 ساعة من قوة الحوسبة RTX 5090 (السعر الأصلي $7).المورد صالح بشكل دائم.

4. انتظر حتى يتم تخصيص الموارد. بمجرد أن تتغير الحالة إلى "قيد التشغيل"، انقر فوق "فتح مساحة العمل" للدخول إلى مساحة عمل Jupyter.

عرض التأثير

1. بعد إعادة توجيه الصفحة، انقر على صفحة README على اليسار، ثم انقر فوق تشغيل في الأعلى.

2. بمجرد اكتمال العملية، انقر فوق عنوان API الموجود على اليمين للانتقال إلى صفحة العرض التوضيحي.

ما سبق هو البرنامج التعليمي الذي توصي به HyperAI هذه المرة. الجميع مدعوون للحضور وتجربته!

رابط البرنامج التعليمي:https://go.hyper.ai/1xEOr