Command Palette
Search for a command to run...
توليد الصوت kyutai-tts-1.6 b-en_fr
التاريخ
الحجم
543.77 MB
الوسوم
الترخيص
Apache 2.0
رابط الورقة البحثية
1. مقدمة البرنامج التعليمي
يُعدّ Kyutai TTS 1.6B (en-fr) نموذجًا ثنائي اللغة واسع النطاق لتحويل النص إلى كلام (TTS) بين الإنجليزية والفرنسية، وقد أصدره فريق Kyutai في 15 أكتوبر 2024. في اختبارات الأداء المعيارية لتحويل النص إلى كلام عبر البث المباشر، يتفوق هذا النموذج على نماذج تحويل النص إلى كلام التقليدية غير المتصلة بالإنترنت بمقدار 751 نقطة في اختبار TP3T و421 نقطة في اختبار TP3T في فئتي "الإخراج الفوري للنصوص الطويلة" و"الطبيعية النبرية ثنائية اللغة" على التوالي. كما حقق أداءً متميزًا في اختبارات الأداء المعيارية لتحويل النص إلى كلام مثل Moshi Benchmark وAudio-Language Alignment Dataset. علاوة على ذلك، يُظهر النموذج ميزات نادرة في الأنظمة السابقة، بما في ذلك توليد البث المباشر للإدخال والإخراج، والتبديل الفوري بين الإنجليزية والفرنسية، واختيار الكلام بناءً على تضمينات مُحسوبة مسبقًا، والاستدلال السريع مع عدد مُعدّل ديناميكيًا لرموز الصوت. نتائج الأبحاث ذات الصلة متاحة. التعلم المتسلسل المتدفق مع نمذجة التدفقات المتأخرة.
يستخدم هذا الشرح بطاقة رسومات واحدة من نوع RTX 4090. يدعم الشرح اللغتين الإنجليزية والفرنسية فقط.
2. أمثلة المشاريع
standard-tts

البث المباشر لتحويل النص إلى كلام

3. خطوات التشغيل
1. بعد بدء تشغيل الحاوية، انقر فوق عنوان API للدخول إلى واجهة الويب

2. خطوات الاستخدام
إذا ظهرت رسالة "Bad Gateway"، فهذا يعني أن النموذج قيد التهيئة. يُرجى الانتظار لمدة دقيقتين إلى ثلاث دقائق ثم تحديث الصفحة. عند استخدام متصفح سفاري، قد لا يتم تشغيل الصوت مباشرةً، ويجب تنزيله أولاً.

معلومات الاستشهاد
@techreport{kyutai2025streaming,
title={Streaming Sequence-to-Sequence Learning with Delayed Streams Modeling},
author={Neil Zeghidour and Eugene Kharitonov and Manu Orsini and Václav Volhejn and Gabriel de Marmiesse and Edouard Grave and Patrick Pérez and Laurent Mazaré and Alexandre Défossez},
year={2025},
eprint={2509.08753},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2509.08753},
}بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.