HyperAIHyperAI
منذ 17 أيام

SCP-GAN: تحسين المُميّز ذاتي التصحيح لتدريب GAN قائم على القياس الحافظ للاتساق في مهام تحسين الصوت

Vasily Zadorozhnyy, Qiang Ye, Kazuhito Koishida
SCP-GAN: تحسين المُميّز ذاتي التصحيح لتدريب GAN قائم على القياس الحافظ للاتساق في مهام تحسين الصوت
الملخص

في السنوات الأخيرة، حققت الشبكات التوليدية التنافسية (GANs) تحسينات كبيرة في مهام تحسين الصوت (SE). ومع ذلك، فإن تدريب هذه الشبكات يُعدّ صعبًا. في هذا العمل، نقدّم عدة تحسينات على أساليب تدريب GAN، والتي يمكن تطبيقها على معظم النماذج القائمة على GAN لتحسين الصوت. نقترح استخدام دوال خسارة اتساق (consistency loss functions)، التي تستهدف عدم الاتساق في المجال الزمني والمجال الزمني-الترددي الناتج عن تحويل فورييه (Fourier) ومعكوسه (Inverse Fourier). كما نقدّم أيضًا خوارزمية تحسين ذاتي (self-correcting optimization) لتدريب مُصنّف GAN في مهام تحسين الصوت، مما يساعد على تجنب "الاتجاهات الضارة" في أجزاء دالة خسارة المصنّف. وقد تم اختبار الطرق المقترحة على عدة نماذج حديثة ومتطورة قائمة على GAN لتحسين الصوت، وتم تحقيق تحسينات متسقة، بما في ذلك إنجازات جديدة على مستوى الحد الأقصى للنتائج (state-of-the-art) على مجموعة بيانات Voice Bank+DEMAND.