6 个月前

音频和语音处理

多任务学习

Kuo-Hsuan Hung Szu-wei Fu Huan-Hsin Tseng Hsin-Tien Chiang Yu Tsao Chii-Wann Lin

摘要

自监督学习（Self-supervised Learning, SSL）在语音表征方面已在多个下游任务中达到当前最优（SOTA）性能。然而，在语音增强（Speech Enhancement, SE）任务中仍存在提升空间。本研究提出采用跨域特征，以解决SSL嵌入在重建语音信号时可能缺乏细粒度信息的问题。通过将SSL表征与频谱图（spectrogram）进行融合，显著提升了语音增强效果。进一步地，我们探究了SSL表征的噪声鲁棒性（通过干净-噪声距离，即CN距离衡量）与其在语音增强任务中各网络层重要性之间的关系。研究发现，噪声鲁棒性较低的SSL表征在语音增强任务中反而更为关键。在VCTK-DEMAND数据集上的实验表明，仅通过将SSL表征与语音增强模型进行微调（fine-tuning），即可在PESQ、CSIG和COVL等指标上超越当前最优的基于SSL的语音增强方法，且无需引入复杂的网络结构。在后续实验中，我们观察到SSL嵌入中的CN距离在微调后显著增加。这一结果验证了我们的预期假设，也为未来设计面向语音增强任务的SSL训练策略提供了重要参考。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

音频和语音处理

多任务学习

Kuo-Hsuan Hung Szu-wei Fu Huan-Hsin Tseng Hsin-Tien Chiang Yu Tsao Chii-Wann Lin

摘要

自监督学习（Self-supervised Learning, SSL）在语音表征方面已在多个下游任务中达到当前最优（SOTA）性能。然而，在语音增强（Speech Enhancement, SE）任务中仍存在提升空间。本研究提出采用跨域特征，以解决SSL嵌入在重建语音信号时可能缺乏细粒度信息的问题。通过将SSL表征与频谱图（spectrogram）进行融合，显著提升了语音增强效果。进一步地，我们探究了SSL表征的噪声鲁棒性（通过干净-噪声距离，即CN距离衡量）与其在语音增强任务中各网络层重要性之间的关系。研究发现，噪声鲁棒性较低的SSL表征在语音增强任务中反而更为关键。在VCTK-DEMAND数据集上的实验表明，仅通过将SSL表征与语音增强模型进行微调（fine-tuning），即可在PESQ、CSIG和COVL等指标上超越当前最优的基于SSL的语音增强方法，且无需引入复杂的网络结构。在后续实验中，我们观察到SSL嵌入中的CN距离在微调后显著增加。这一结果验证了我们的预期假设，也为未来设计面向语音增强任务的SSL训练策略提供了重要参考。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供