HyperAIHyperAI

Command Palette

Search for a command to run...

BigVSAN: تحسين المُولِّدات الصوتية العصبية القائمة على GAN من خلال الشبكة المُضادة للقطع

Takashi Shibuya Yuhta Takida Yuki Mitsufuji

الملخص

تم دراسة مشغلات الصوت القائمة على الشبكات التلافيفية التوليدية (GAN) بشكل مكثف نظرًا لقدرتها على توليد موجات صوتية عالية الدقة بسرعة أسرع من الوقت الفعلي. ومع ذلك، أُبلغ عن أن معظم شبكات GAN لا تتمكن من تحقيق التصوير الأمثل لتمييز البيانات الحقيقية والوهمية في الفضاء المميز. وفي الأدبيات، تم إثبات أن نموذج الشبكة التلافيفية المُقسَّمة المُحسَّنة (SAN)، وهو إطار تدريب محسَّن للشبكات التلافيفية التوليدية قادر على إيجاد التصوير الأمثل، يُظهر فعالية كبيرة في مهام توليد الصور. وفي هذه الورقة، نستعرض فعالية SAN في مهمة توليد الصوت (vocoding). ولتحقيق ذلك، نقترح خطة لتعديل GAN القائم على أقل المربعات، والذي يعتمد عليه معظم مشغلات الصوت القائمة على GAN، بحيث تلبي دوال الخسارة المطلوبة من قبل SAN. ومن خلال تجاربنا، نُظهر أن SAN يمكنه تحسين أداء مشغلات الصوت القائمة على GAN، بما في ذلك BigVGAN، بتعديلات بسيطة. يمكن الوصول إلى الشيفرة المصدرية لدينا عبر الرابط التالي: https://github.com/sony/bigvsan.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
BigVSAN: تحسين المُولِّدات الصوتية العصبية القائمة على GAN من خلال الشبكة المُضادة للقطع | مستندات | HyperAI