8 个月前

音频和语音处理

Ma Pingchuan ; Haliassos Alexandros ; Fernandez-Lopez Adriana ; Chen Honglie ; Petridis Stavros ; Pantic Maja

摘要

视听语音识别因其对声学噪声的鲁棒性而受到广泛关注。近年来，自动语音识别（ASR）、视觉语音识别（VSR）和视听语音识别（AV-ASR）的性能得到了显著提升，这主要归功于更大规模的模型和训练集的应用。然而，数据集的精确标注耗时且成本高昂。因此，本研究探讨了利用未标注数据集自动生成转录以增加训练集规模的方法。为此，我们使用公开可用的预训练ASR模型来自动转录音频视觉数据集（如AVSpeech和VoxCeleb2）。随后，我们在扩展后的训练集上训练ASR、VSR和AV-ASR模型，该训练集包括LRS2和LRS3数据集以及额外的自动生成转录数据。研究表明，尽管使用了带有噪声的转录，但扩大训练集规模这一近期趋势仍能降低词错误率（WER）。所提出的模型在LRS2和LRS3上的AV-ASR任务中达到了新的最先进水平。特别是，在LRS3上实现了0.9%的WER，相对于当前最先进方法相对提升了30%，并且超过了使用26倍更多训练数据但非公开可用的数据集进行训练的方法。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

音频和语音处理

Ma Pingchuan ; Haliassos Alexandros ; Fernandez-Lopez Adriana ; Chen Honglie ; Petridis Stavros ; Pantic Maja

摘要

视听语音识别因其对声学噪声的鲁棒性而受到广泛关注。近年来，自动语音识别（ASR）、视觉语音识别（VSR）和视听语音识别（AV-ASR）的性能得到了显著提升，这主要归功于更大规模的模型和训练集的应用。然而，数据集的精确标注耗时且成本高昂。因此，本研究探讨了利用未标注数据集自动生成转录以增加训练集规模的方法。为此，我们使用公开可用的预训练ASR模型来自动转录音频视觉数据集（如AVSpeech和VoxCeleb2）。随后，我们在扩展后的训练集上训练ASR、VSR和AV-ASR模型，该训练集包括LRS2和LRS3数据集以及额外的自动生成转录数据。研究表明，尽管使用了带有噪声的转录，但扩大训练集规模这一近期趋势仍能降低词错误率（WER）。所提出的模型在LRS2和LRS3上的AV-ASR任务中达到了新的最先进水平。特别是，在LRS3上实现了0.9%的WER，相对于当前最先进方法相对提升了30%，并且超过了使用26倍更多训练数据但非公开可用的数据集进行训练的方法。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供