
الملخص
نقدم نموذج Step-Audio-EditX، أول نموذج صوتي مفتوح المصدر مبني على نموذج لغوي كبير (LLM) يُظهر كفاءة عالية في تحرير الصوت التعبيري والمتكرر، والذي يشمل العواطف، ونبرة الكلام، والجوانب البارالغوية، إلى جانب قدرات قوية في التحويل من النص إلى الصوت (TTS) دون الحاجة إلى تدريب مسبق (zero-shot). تكمن الابتكار الرئيسي في نموذجنا في الاستفادة من بيانات مُصَنَّعة ذات فجوة كبيرة (large-margin synthetic data) فقط، مما يُجنبنا الحاجة إلى استخدام مُقدِّمات مبنية على التضمين (embedding-based priors) أو وحدات مساعدة إضافية. يمكّننا هذا النهج التعلُّم بفجوة كبيرة من تحقيق التحكم التكراري وتحقيق تعبير عالٍ عبر أصوات متعددة، ويشكّل تحولًا جوهريًا عن التركيز التقليدي على فصل التمثيلات على مستوى التمثيل (representation-level disentanglement). وتوحي نتائج التقييم بأن Step-Audio-EditX يتفوّق على كل من MiniMax-2.6-hd وDoubao-Seed-TTS-2.0 في مهام تحرير العواطف ومهام التحكم الدقيق الأخرى.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.