8 个月前

计算机视觉

Young Jin Ahn Jungwoo Park Sangha Park Jonghyun Choi Kee-Eung Kim

摘要

视觉语音识别（VSR）位于计算机视觉和语音识别的交叉点，旨在通过视觉线索解释口语内容。VSR面临的一个主要挑战是同音异义词的存在——即在视觉上相似但代表不同音素的唇部动作。先前的方法试图通过对齐视觉和听觉语义来区分细微的视素，但往往难以实现完全同步。为了解决这一问题，我们提出了SyncVSR，这是一种端到端的学习框架，利用量化音频进行帧级别的跨模态监督。通过集成一个将视觉表示与声学数据同步的投影层，我们的编码器能够在非自回归的方式下从视频序列中生成离散的音频标记。SyncVSR在不同的任务、语言和模态中表现出色，尽管需要一次前向传递。我们的实证评估表明，它不仅达到了当前最先进的水平，还最多减少了九倍的数据使用量。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

计算机视觉

Young Jin Ahn Jungwoo Park Sangha Park Jonghyun Choi Kee-Eung Kim

摘要

视觉语音识别（VSR）位于计算机视觉和语音识别的交叉点，旨在通过视觉线索解释口语内容。VSR面临的一个主要挑战是同音异义词的存在——即在视觉上相似但代表不同音素的唇部动作。先前的方法试图通过对齐视觉和听觉语义来区分细微的视素，但往往难以实现完全同步。为了解决这一问题，我们提出了SyncVSR，这是一种端到端的学习框架，利用量化音频进行帧级别的跨模态监督。通过集成一个将视觉表示与声学数据同步的投影层，我们的编码器能够在非自回归的方式下从视频序列中生成离散的音频标记。SyncVSR在不同的任务、语言和模态中表现出色，尽管需要一次前向传递。我们的实证评估表明，它不仅达到了当前最先进的水平，还最多减少了九倍的数据使用量。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供