HyperAIHyperAI

Command Palette

Search for a command to run...

تقرير فني حول Step-Audio-EditX

الملخص

نقدم نموذج Step-Audio-EditX، أول نموذج صوتي مفتوح المصدر مبني على نموذج لغوي كبير (LLM) يُظهر كفاءة عالية في تحرير الصوت التعبيري والمتكرر، والذي يشمل العواطف، ونبرة الكلام، والجوانب البارالغوية، إلى جانب قدرات قوية في التحويل من النص إلى الصوت (TTS) دون الحاجة إلى تدريب مسبق (zero-shot). تكمن الابتكار الرئيسي في نموذجنا في الاستفادة من بيانات مُصَنَّعة ذات فجوة كبيرة (large-margin synthetic data) فقط، مما يُجنبنا الحاجة إلى استخدام مُقدِّمات مبنية على التضمين (embedding-based priors) أو وحدات مساعدة إضافية. يمكّننا هذا النهج التعلُّم بفجوة كبيرة من تحقيق التحكم التكراري وتحقيق تعبير عالٍ عبر أصوات متعددة، ويشكّل تحولًا جوهريًا عن التركيز التقليدي على فصل التمثيلات على مستوى التمثيل (representation-level disentanglement). وتوحي نتائج التقييم بأن Step-Audio-EditX يتفوّق على كل من MiniMax-2.6-hd وDoubao-Seed-TTS-2.0 في مهام تحرير العواطف ومهام التحكم الدقيق الأخرى.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
تقرير فني حول Step-Audio-EditX | مستندات | HyperAI