HyperAIHyperAI
منذ 16 أيام

BigVSAN: تحسين المُولِّدات الصوتية العصبية القائمة على GAN من خلال الشبكة المُضادة للقطع

Takashi Shibuya, Yuhta Takida, Yuki Mitsufuji
BigVSAN: تحسين المُولِّدات الصوتية العصبية القائمة على GAN من خلال الشبكة المُضادة للقطع
الملخص

تم دراسة مشغلات الصوت القائمة على الشبكات التلافيفية التوليدية (GAN) بشكل مكثف نظرًا لقدرتها على توليد موجات صوتية عالية الدقة بسرعة أسرع من الوقت الفعلي. ومع ذلك، أُبلغ عن أن معظم شبكات GAN لا تتمكن من تحقيق التصوير الأمثل لتمييز البيانات الحقيقية والوهمية في الفضاء المميز. وفي الأدبيات، تم إثبات أن نموذج الشبكة التلافيفية المُقسَّمة المُحسَّنة (SAN)، وهو إطار تدريب محسَّن للشبكات التلافيفية التوليدية قادر على إيجاد التصوير الأمثل، يُظهر فعالية كبيرة في مهام توليد الصور. وفي هذه الورقة، نستعرض فعالية SAN في مهمة توليد الصوت (vocoding). ولتحقيق ذلك، نقترح خطة لتعديل GAN القائم على أقل المربعات، والذي يعتمد عليه معظم مشغلات الصوت القائمة على GAN، بحيث تلبي دوال الخسارة المطلوبة من قبل SAN. ومن خلال تجاربنا، نُظهر أن SAN يمكنه تحسين أداء مشغلات الصوت القائمة على GAN، بما في ذلك BigVGAN، بتعديلات بسيطة. يمكن الوصول إلى الشيفرة المصدرية لدينا عبر الرابط التالي: https://github.com/sony/bigvsan.

BigVSAN: تحسين المُولِّدات الصوتية العصبية القائمة على GAN من خلال الشبكة المُضادة للقطع | أحدث الأوراق البحثية | HyperAI