منذ 3 أشهر

الملخص

نقدم نموذج Step-Audio-EditX، أول نموذج صوتي مفتوح المصدر مبني على نموذج لغوي كبير (LLM) يُظهر كفاءة عالية في تحرير الصوت التعبيري والمتكرر، والذي يشمل العواطف، ونبرة الكلام، والجوانب البارالغوية، إلى جانب قدرات قوية في التحويل من النص إلى الصوت (TTS) دون الحاجة إلى تدريب مسبق (zero-shot). تكمن الابتكار الرئيسي في نموذجنا في الاستفادة من بيانات مُصَنَّعة ذات فجوة كبيرة (large-margin synthetic data) فقط، مما يُجنبنا الحاجة إلى استخدام مُقدِّمات مبنية على التضمين (embedding-based priors) أو وحدات مساعدة إضافية. يمكّننا هذا النهج التعلُّم بفجوة كبيرة من تحقيق التحكم التكراري وتحقيق تعبير عالٍ عبر أصوات متعددة، ويشكّل تحولًا جوهريًا عن التركيز التقليدي على فصل التمثيلات على مستوى التمثيل (representation-level disentanglement). وتوحي نتائج التقييم بأن Step-Audio-EditX يتفوّق على كل من MiniMax-2.6-hd وDoubao-Seed-TTS-2.0 في مهام تحرير العواطف ومهام التحكم الدقيق الأخرى.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار