8 个月前

多模态表征

音频和语音处理

Pan Xichen ; Chen Peiyu ; Gong Yichen ; Zhou Helong ; Wang Xinbing ; Lin Zhouhan

摘要

训练基于Transformer的模型需要大量的数据，而获取多模态对齐和标注的数据成本较高，尤其是对于音视频语音识别（AVSR）。因此，利用未标注的单模态数据具有重要意义。尽管大规模自监督学习在音频和视觉模态中的有效性已得到广泛认可，但如何将这些预训练模型整合到多模态场景中仍是一个有待探索的问题。在这项工作中，我们成功地利用了单模态自监督学习来提升多模态AVSR的效果。具体而言，音频和视觉前端在大规模单模态数据集上进行训练，然后我们将这两个前端的组件整合到一个更大的多模态框架中，该框架通过CTC和seq2seq解码相结合的方式学习识别并行的音视频数据为字符。我们展示了来自单模态自监督学习的两个组件能够很好地协同工作，从而使得多模态框架在微调后能够取得有竞争力的结果。我们的模型在单词级和句子级任务上均得到了实验验证。特别是，在没有外部语言模型的情况下，我们提出的模型在广泛接受的Lip Reading Sentences 2（LRS2）数据集上的性能大幅提高，相对提升了30%。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

多模态表征

音频和语音处理

Pan Xichen ; Chen Peiyu ; Gong Yichen ; Zhou Helong ; Wang Xinbing ; Lin Zhouhan

摘要

训练基于Transformer的模型需要大量的数据，而获取多模态对齐和标注的数据成本较高，尤其是对于音视频语音识别（AVSR）。因此，利用未标注的单模态数据具有重要意义。尽管大规模自监督学习在音频和视觉模态中的有效性已得到广泛认可，但如何将这些预训练模型整合到多模态场景中仍是一个有待探索的问题。在这项工作中，我们成功地利用了单模态自监督学习来提升多模态AVSR的效果。具体而言，音频和视觉前端在大规模单模态数据集上进行训练，然后我们将这两个前端的组件整合到一个更大的多模态框架中，该框架通过CTC和seq2seq解码相结合的方式学习识别并行的音视频数据为字符。我们展示了来自单模态自监督学习的两个组件能够很好地协同工作，从而使得多模态框架在微调后能够取得有竞争力的结果。我们的模型在单词级和句子级任务上均得到了实验验证。特别是，在没有外部语言模型的情况下，我们提出的模型在广泛接受的Lip Reading Sentences 2（LRS2）数据集上的性能大幅提高，相对提升了30%。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供