6 个月前

音频和语音处理

计算机视觉

Jianwei Yu Shi-Xiong Zhang Jian Wu Shahram Ghorbani Bo Wu Shiyin Kang Shansong Liu Xunying Liu Helen Meng Dong Yu

摘要

迄今为止，重叠语音的自动识别仍然是一个极具挑战性的任务。受人类语音感知双模态特性的启发，本文研究了基于音视频技术的重叠语音识别方法。针对音视频语音识别（AVSR）系统构建中的三个关键问题，本文提出了一系列解决方案：首先，探讨了AVSR系统的基础架构设计，包括端到端与混合式架构；其次，引入了专门设计的模态融合门机制，以鲁棒地融合音频与视觉特征；第三，与传统流水线式架构（包含显式的语音分离与识别模块）不同，本文提出了一种结构精简且高度集成的AVSR系统，该系统通过无网格最大似然增量（Lattice-free MMI, LF-MMI）判别准则进行统一优化。所提出的基于LF-MMI的时延神经网络（TDNN）系统在LRS2数据集上达到了当前最优性能。在基于LRS2数据集模拟的重叠语音实验中，该AVSR系统相较仅使用音频的基线LF-MMI深度神经网络（DNN）系统，词错误率（WER）最高降低了29.98个百分点，识别性能与更复杂的流水线系统相当。此外，在特征融合基础上，该系统相较基线AVSR系统实现了4.89个百分点的WER绝对降低，表现出持续且显著的性能提升。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

音频和语音处理

计算机视觉

Jianwei Yu Shi-Xiong Zhang Jian Wu Shahram Ghorbani Bo Wu Shiyin Kang Shansong Liu Xunying Liu Helen Meng Dong Yu

摘要

迄今为止，重叠语音的自动识别仍然是一个极具挑战性的任务。受人类语音感知双模态特性的启发，本文研究了基于音视频技术的重叠语音识别方法。针对音视频语音识别（AVSR）系统构建中的三个关键问题，本文提出了一系列解决方案：首先，探讨了AVSR系统的基础架构设计，包括端到端与混合式架构；其次，引入了专门设计的模态融合门机制，以鲁棒地融合音频与视觉特征；第三，与传统流水线式架构（包含显式的语音分离与识别模块）不同，本文提出了一种结构精简且高度集成的AVSR系统，该系统通过无网格最大似然增量（Lattice-free MMI, LF-MMI）判别准则进行统一优化。所提出的基于LF-MMI的时延神经网络（TDNN）系统在LRS2数据集上达到了当前最优性能。在基于LRS2数据集模拟的重叠语音实验中，该AVSR系统相较仅使用音频的基线LF-MMI深度神经网络（DNN）系统，词错误率（WER）最高降低了29.98个百分点，识别性能与更复杂的流水线系统相当。此外，在特征融合基础上，该系统相较基线AVSR系统实现了4.89个百分点的WER绝对降低，表现出持续且显著的性能提升。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

基于LRS2数据集的音视频重叠语音识别 | 论文 | HyperAI超神经