HyperAIHyperAI

Command Palette

Search for a command to run...

Vocos: تضييق الفجوة بين المُنَشِّطات العصبية الزمنية والمتناهية التحويلية لتركيب الصوت عالي الجودة

Hubert Siuzdak

الملخص

تُحفَّز التطورات الحديثة في التوليد العصبي للصوت بشكل رئيسي بواسطة الشبكات العصبية التوليدية المتنافسة (GANs) التي تعمل في المجال الزمني. وعلى الرغم من فعاليتها، فإن هذا النهج يتجاهل الانحياز التمثيلي المقدم من تمثيلات الزمن-التردد، مما يؤدي إلى عمليات تضخيم مكررة ومتطلبة للحسابات بشكل كبير. يُعد التمثيل الزمني-التردد القائم على تحويل فورييه بديلاً جذاباً، إذ يتوافق بدقة أكبر مع الإدراك السمعي البشري، ويستفيد من خوارزميات سريعة مثبتة مسبقاً لحسابه. ومع ذلك، ظلت إعادة بناء الطيف المركب مباشرةً مشكلة تاريخية، وذلك أساساً بسبب صعوبات استعادة الطور. تسعى هذه الدراسة إلى سد هذه الفجوة من خلال عرض نموذج جديد يُسمى "فوكوس" (Vocos)، الذي يُولِّد بشكل مباشر معاملات الطيف فورييه. لا يقتصر فوكوس على تحقيق جودة صوتية توازي أحدث المستويات، كما أظهرت تقييماتنا، بل يُحسّن بشكل كبير الكفاءة الحسابية، حيث يحقق زيادة بمقدار مرتبة واحدة في السرعة مقارنةً بالأساليب السائدة في التوليد العصبي للصوت في المجال الزمني. تم إتاحة الشفرة المصدرية وأوزان النموذج مفتوحة المصدر على الرابط التالي: https://github.com/gemelo-ai/vocos.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
Vocos: تضييق الفجوة بين المُنَشِّطات العصبية الزمنية والمتناهية التحويلية لتركيب الصوت عالي الجودة | مستندات | HyperAI