Supertonic: نموذج توليف كلام TTS عالي السرعة يعتمد على ONNX
1. مقدمة البرنامج التعليمي

يعتمد هذا البرنامج التعليمي على مشروع Supertone مفتوح المصدر الرسمي.سوبرتونيكشكرًا لفريق Supertone على مساهماتهم في مجتمع المصدر المفتوح! ❤️
Supertonic هو محرك تحويل نص إلى كلام (TTS) أصلي، أطلقه فريق Supertone في يناير 2025. تُنفَّذ طبقة الاستدلال الأساسية فيه باستخدام وقت تشغيل ONNX، المصمم خصيصًا لسيناريوهات زمن الوصول المنخفض والتزامن العالي. بخلاف نماذج تحويل النص إلى كلام التقليدية واسعة النطاق، يُخفِّض Supertonic بشكل كبير حاجز الأجهزة مع الحفاظ على جودة عالية لتوليف الكلام، ويدعم الاستدلال الفوري الكامل دون اتصال بالإنترنت على أجهزة الكمبيوتر المكتبية والخوادم، وحتى أجهزة الحافة. وهو مناسب بشكل خاص للسيناريوهات التي تتطلب الخصوصية والأمان، أو تلك التي تتطلب التكامل مع التطبيقات التفاعلية الفورية (مثل البشر الرقميين والدردشة الصوتية في الألعاب).
يرجى ملاحظة: هذا المشروع يدعم حاليًا توليف الكلام للنص الإنجليزي فقط.
يوضح هذا البرنامج التعليمي قوة الحوسبة لوحدة معالجة رسومية RTX 5090 واحدة على منصة OpenBayes، باستخدام تسريع الأجهزة onnxruntime-gpu وGrado لبناء واجهة ويب مرئية تحقق توليف الكلام الإنجليزي على مستوى ميلي ثانية.
2. أمثلة المشاريع

3. خطوات التشغيل
1. بعد بدء تشغيل الحاوية، انقر فوق عنوان API للدخول إلى واجهة الويب
- استنسخ هذا البرنامج التعليمي العام في وحدة التحكم OpenBayes.
- ابدأ تشغيل الحاوية: سيقوم النظام تلقائيًا بتخصيص موارد RTX 5090 لك.
- في انتظار البدء: بعد بدء تشغيل الحاوية، يتم تشغيل البرنامج النصي في الخلفية
dependencies.shسيتم تكوين بيئة CUDA تلقائيًا، وسيتم تحميل النموذج. بما أن التبعيات الأساسية مُثبّتة مسبقًا، فإن هذه العملية سريعة جدًا، وعادةً ما تستغرق دقيقة أو دقيقتين فقط. - الوصول إلى التطبيق: بعد تغيير حالة الحاوية إلى "قيد التشغيل"، انقر فوق الزر "عنوان API" في الزاوية اليمنى العليا من صفحة تفاصيل الحاوية لفتح واجهة الويب الخاصة بـ Grado.

2. إدخال النص في صفحة الويب وتوليف الكلام.
إذا ظهرت رسالة "بوابة تالفة"، فهذا يعني أن الخدمة قيد التشغيل. نظرًا لأن تحميل النموذج يستغرق وقتًا، يُرجى الانتظار لمدة دقيقة أو دقيقتين ثم تحديث الصفحة.
عند استخدام متصفح Safari، قد لا يتم تشغيل الصوت مباشرة ويجب تنزيله قبل التشغيل.
بعد الدخول إلى صفحة الويب، سوف ترى واجهة تفاعلية بالكامل باللغة الإنجليزية.
خطوات الاستخدام الأساسية:
- نص الإدخال: أدخل النص الإنجليزي الذي ترغب في تلخيصه في مربع النص على اليسار. مثال: Supertonic هو نموذج تحويل النص إلى كلام سريع للغاية.
- نمط الصوت: حدد نمطًا محددًا مسبقًا من القائمة المنسدلة (على سبيل المثال، ...).
Male 1صوت ذكر أوFemale 1(صوت أنثوي) - السرعة: اسحب شريط التمرير لضبط سرعة التحدث. القيمة الافتراضية هي ١.٠.
- إنشاء الكلام: انقر فوق الزر "إنشاء".
- مخرج الصوت: يرجى الانتظار قليلاً، وسيُشغّل المُشغّل على اليمين الصوت المُولّد تلقائيًا. يمكنك أيضًا النقر على زر التنزيل في الزاوية العلوية اليمنى لحفظه.
.wavوثيقة.

ملاحظة: عند النقر على "إنشاء" لأول مرة، قد يستغرق وقت تشغيل ONNX بضع ثوانٍ لتهيئة CUDA وتحسين الرسم البياني. ستكون سرعات التوليد اللاحقة عالية جدًا.

معلومات الاستشهاد
@article{kim2025supertonic, title={SupertonicTTS: Towards Highly Efficient and Streamlined Text-to-Speech System}, author={Kim, Hyeongju and Yang, Jinhyeok and Yu, Yechan and Ji, Seunghun and Morton, Jacob and Bous, Malek and Lee, Sungjae}, journal={arXiv preprint arXiv:2503.23108}, year={2025}, url={[https://arxiv.org/abs/2503.23108](https://arxiv.org/abs/2503.23108)} } @article{kim2025larope,
title={Length-Aware Rotary Position Embedding for Text-Speech Alignment},
author={Kim, Hyeongju and Lee, Juheon and Yang, Jinhyeok and Morton, Jacob},
journal={arXiv preprint arXiv:2509.11084},
year={2025},
url={https://arxiv.org/abs/2509.11084}
}@article{kim2025spfm,
title={Training Flow Matching Models with Reliable Labels via Self-Purification},
author={Kim, Hyeongju and Yu, Yechan and Yi, June Young and Lee, Juheon},
journal={arXiv preprint arXiv:2509.19091},
year={2025},
url={https://arxiv.org/abs/2509.19091}
}
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.