7 个月前

计算机视觉

计算机视觉

Shuang Yang1, Yuanhang Zhang2, Dalu Feng1,2, Mingmin Yang4, Chenhao Wang2, Jingyun Xiao2, Keyu Long2, Shiguang Shan1,2,3, Xilin Chen1,2

摘要

大规模数据集在多个研究领域中已相继证明了其基础性的重要性，特别是在一些新兴课题的早期进展中。本文重点关注视觉语音识别问题，也称为唇读（lipreading），该领域近年来受到了越来越多的关注。我们介绍了一个名为LRW-1000的自然分布的大规模基准数据集，用于野外环境下的唇读，包含1,000个类别和来自2,000多名独立发言者的718,018个样本。每个类别对应一个由一个或多个汉字组成的普通话词语的音节。据我们所知，这是目前最大的词级唇读数据集，也是唯一公开的大规模普通话唇读数据集。该数据集旨在涵盖不同说话模式和成像条件下的“自然”变异性，以纳入实际应用中遇到的挑战。此基准数据集在多个方面表现出较大的变化，包括每个类别的样本数量、视频分辨率、光照条件以及发言者的属性如姿势、年龄、性别和化妆等。除了提供对数据集及其采集流程的详细描述外，我们还评估了几种典型的流行唇读方法，并从多个角度对结果进行了深入分析。结果表明我们的数据集具有一致性和挑战性，这可能为未来的研究开辟一些新的有前景的方向。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

7 个月前

计算机视觉

计算机视觉

Shuang Yang1, Yuanhang Zhang2, Dalu Feng1,2, Mingmin Yang4, Chenhao Wang2, Jingyun Xiao2, Keyu Long2, Shiguang Shan1,2,3, Xilin Chen1,2

摘要

大规模数据集在多个研究领域中已相继证明了其基础性的重要性，特别是在一些新兴课题的早期进展中。本文重点关注视觉语音识别问题，也称为唇读（lipreading），该领域近年来受到了越来越多的关注。我们介绍了一个名为LRW-1000的自然分布的大规模基准数据集，用于野外环境下的唇读，包含1,000个类别和来自2,000多名独立发言者的718,018个样本。每个类别对应一个由一个或多个汉字组成的普通话词语的音节。据我们所知，这是目前最大的词级唇读数据集，也是唯一公开的大规模普通话唇读数据集。该数据集旨在涵盖不同说话模式和成像条件下的“自然”变异性，以纳入实际应用中遇到的挑战。此基准数据集在多个方面表现出较大的变化，包括每个类别的样本数量、视频分辨率、光照条件以及发言者的属性如姿势、年龄、性别和化妆等。除了提供对数据集及其采集流程的详细描述外，我们还评估了几种典型的流行唇读方法，并从多个角度对结果进行了深入分析。结果表明我们的数据集具有一致性和挑战性，这可能为未来的研究开辟一些新的有前景的方向。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供