HyperAIHyperAI

Command Palette

Search for a command to run...

منذ 19 أيام

تقرير فني حول Step-Audio-EditX

تقرير فني حول Step-Audio-EditX

الملخص

نقدم نموذج Step-Audio-EditX، أول نموذج صوتي مفتوح المصدر مبني على نموذج لغوي كبير (LLM) يُظهر كفاءة عالية في تحرير الصوت التعبيري والمتكرر، والذي يشمل العواطف، ونبرة الكلام، والجوانب البارالغوية، إلى جانب قدرات قوية في التحويل من النص إلى الصوت (TTS) دون الحاجة إلى تدريب مسبق (zero-shot). تكمن الابتكار الرئيسي في نموذجنا في الاستفادة من بيانات مُصَنَّعة ذات فجوة كبيرة (large-margin synthetic data) فقط، مما يُجنبنا الحاجة إلى استخدام مُقدِّمات مبنية على التضمين (embedding-based priors) أو وحدات مساعدة إضافية. يمكّننا هذا النهج التعلُّم بفجوة كبيرة من تحقيق التحكم التكراري وتحقيق تعبير عالٍ عبر أصوات متعددة، ويشكّل تحولًا جوهريًا عن التركيز التقليدي على فصل التمثيلات على مستوى التمثيل (representation-level disentanglement). وتوحي نتائج التقييم بأن Step-Audio-EditX يتفوّق على كل من MiniMax-2.6-hd وDoubao-Seed-TTS-2.0 في مهام تحرير العواطف ومهام التحكم الدقيق الأخرى.

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
تقرير فني حول Step-Audio-EditX | الأوراق البحثية | HyperAI