8 个月前

音频和语音处理

自然语言处理

多任务学习

自然语言处理

Szu-Jui Chen Aswin Shanmugam Subramanian Hainan Xu Shinji Watanabe

摘要

本文描述了一种新的基线系统，用于在CHiME-4挑战中进行自动语音识别（ASR），旨在通过提供以下两个方面促进语音处理社区中噪声环境下的ASR发展：1）一种简化的单系统，其性能可与挑战中的复杂顶级系统相媲美；2）通过Kaldi语音识别工具包的主要仓库提供的公开且可复现的实现方案。所提出的系统采用了广义特征值波束形成技术，并结合双向长短时记忆（LSTM）掩码估计。我们还提出使用基于最大互信息无格子版本（LF-MMI）训练的时间延迟神经网络（TDNN），该网络利用增强后的六麦克风数据及波束形成后的数据进行训练。最后，我们使用LSTM语言模型进行格子和N最佳重评分。最终系统在6通道赛道的实际测试集中实现了2.74%的词错误率（WER），这在挑战中排名第二。此外，所提出的基线实现方案包括四种不同的语音增强评估指标：短时客观可懂度指标（STOI）、扩展STOI（eSTOI）、感知语音质量评估（PESQ）和语音失真比（SDR），适用于模拟测试集。因此，该实现方案还为使用这些性能指标进行语音增强研究提供了实验平台。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

音频和语音处理

自然语言处理

多任务学习

自然语言处理

Szu-Jui Chen Aswin Shanmugam Subramanian Hainan Xu Shinji Watanabe

摘要

本文描述了一种新的基线系统，用于在CHiME-4挑战中进行自动语音识别（ASR），旨在通过提供以下两个方面促进语音处理社区中噪声环境下的ASR发展：1）一种简化的单系统，其性能可与挑战中的复杂顶级系统相媲美；2）通过Kaldi语音识别工具包的主要仓库提供的公开且可复现的实现方案。所提出的系统采用了广义特征值波束形成技术，并结合双向长短时记忆（LSTM）掩码估计。我们还提出使用基于最大互信息无格子版本（LF-MMI）训练的时间延迟神经网络（TDNN），该网络利用增强后的六麦克风数据及波束形成后的数据进行训练。最后，我们使用LSTM语言模型进行格子和N最佳重评分。最终系统在6通道赛道的实际测试集中实现了2.74%的词错误率（WER），这在挑战中排名第二。此外，所提出的基线实现方案包括四种不同的语音增强评估指标：短时客观可懂度指标（STOI）、扩展STOI（eSTOI）、感知语音质量评估（PESQ）和语音失真比（SDR），适用于模拟测试集。因此，该实现方案还为使用这些性能指标进行语音增强研究提供了实验平台。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供