HyperAIHyperAI

Command Palette

Search for a command to run...

LRW-1000:一种自然分布的大规模野外唇读基准数据集

Shuang Yang*1, Yuanhang Zhang*2, Dalu Feng*1,2, Mingmin Yang*4, Chenhao Wang2, Jingyun Xiao2, Keyu Long2, Shiguang Shan1,2,3, Xilin Chen1,2

摘要

大规模数据集在多个研究领域中已相继证明了其基础性的重要性,特别是在一些新兴课题的早期进展中。本文重点关注视觉语音识别问题,也称为唇读(lipreading),该领域近年来受到了越来越多的关注。我们介绍了一个名为LRW-1000的自然分布的大规模基准数据集,用于野外环境下的唇读,包含1,000个类别和来自2,000多名独立发言者的718,018个样本。每个类别对应一个由一个或多个汉字组成的普通话词语的音节。据我们所知,这是目前最大的词级唇读数据集,也是唯一公开的大规模普通话唇读数据集。该数据集旨在涵盖不同说话模式和成像条件下的“自然”变异性,以纳入实际应用中遇到的挑战。此基准数据集在多个方面表现出较大的变化,包括每个类别的样本数量、视频分辨率、光照条件以及发言者的属性如姿势、年龄、性别和化妆等。除了提供对数据集及其采集流程的详细描述外,我们还评估了几种典型的流行唇读方法,并从多个角度对结果进行了深入分析。结果表明我们的数据集具有一致性和挑战性,这可能为未来的研究开辟一些新的有前景的方向。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供