HyperAIHyperAI

Command Palette

Search for a command to run...

构象体是视觉语音识别所需的一切

Oscar Chang Hank Liao Dmitriy Serdyuk Ankit Shah† Olivier Siohan

摘要

视觉语音识别模型以层次化的方式提取视觉特征。在较低层级,存在一个具有有限时间感受野的视觉前端,用于处理描绘嘴唇或面部的原始像素。在较高层级,则有一个编码器,它在一个较大的时间感受野上关注由前端生成的嵌入向量。以往的研究主要集中在改进模型的视觉前端,以提取对语音识别更有用的特征。令人惊讶的是,我们的研究显示复杂的视觉前端并非必要。与其将资源投入到复杂的视觉前端,我们发现线性的视觉前端与更大规模的Conformer编码器相结合可以实现更低的延迟、更高效的内存使用以及更好的词错误率(WER)性能。我们在TED LRS3数据集上的视觉语音识别任务中达到了12.8%的WER新纪录,这一成绩可与四年前仅依赖音频的模型相媲美。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供