HyperAI

摘要

视觉语音识别模型以层次化的方式提取视觉特征。在较低层级，存在一个具有有限时间感受野的视觉前端，用于处理描绘嘴唇或面部的原始像素。在较高层级，则有一个编码器，它在一个较大的时间感受野上关注由前端生成的嵌入向量。以往的研究主要集中在改进模型的视觉前端，以提取对语音识别更有用的特征。令人惊讶的是，我们的研究显示复杂的视觉前端并非必要。与其将资源投入到复杂的视觉前端，我们发现线性的视觉前端与更大规模的Conformer编码器相结合可以实现更低的延迟、更高效的内存使用以及更好的词错误率（WER）性能。我们在TED LRS3数据集上的视觉语音识别任务中达到了12.8%的WER新纪录，这一成绩可与四年前仅依赖音频的模型相媲美。

摘要

Oscar Chang Hank Liao Dmitriy Serdyuk Ankit Shah† Olivier Siohan

摘要

用 AI 构建 AI

HyperAI Newsletters

Oscar Chang Hank Liao Dmitriy Serdyuk Ankit Shah† Olivier Siohan

摘要

用 AI 构建 AI

HyperAI Newsletters

Oscar Chang Hank Liao Dmitriy Serdyuk Ankit Shah† Olivier Siohan

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

构象体是视觉语音识别所需的一切

Oscar Chang Hank Liao Dmitriy Serdyuk Ankit Shah† Olivier Siohan

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

构象体是视觉语音识别所需的一切

Oscar Chang Hank Liao Dmitriy Serdyuk Ankit Shah† Olivier Siohan

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

构象体是视觉语音识别所需的一切

Oscar Chang Hank Liao Dmitriy Serdyuk Ankit Shah† Olivier Siohan

摘要

用 AI 构建 AI

HyperAI Newsletters