1 个月前
LRW-1000:一种自然分布的大规模野外唇读基准数据集
Shuang Yang; Yuanhang Zhang; Dalu Feng; Mingmin Yang; Chenhao Wang; Jingyun Xiao; Keyu Long; Shiguang Shan; Xilin Chen

摘要
大规模数据集在多个研究领域中已相继证明了其基础性的重要性,特别是在一些新兴课题的早期进展中。本文重点关注视觉语音识别问题,也称为唇读(lipreading),该领域近年来受到了越来越多的关注。我们介绍了一个名为LRW-1000的自然分布的大规模基准数据集,用于野外环境下的唇读,包含1,000个类别和来自2,000多名独立发言者的718,018个样本。每个类别对应一个由一个或多个汉字组成的普通话词语的音节。据我们所知,这是目前最大的词级唇读数据集,也是唯一公开的大规模普通话唇读数据集。该数据集旨在涵盖不同说话模式和成像条件下的“自然”变异性,以纳入实际应用中遇到的挑战。此基准数据集在多个方面表现出较大的变化,包括每个类别的样本数量、视频分辨率、光照条件以及发言者的属性如姿势、年龄、性别和化妆等。除了提供对数据集及其采集流程的详细描述外,我们还评估了几种典型的流行唇读方法,并从多个角度对结果进行了深入分析。结果表明我们的数据集具有一致性和挑战性,这可能为未来的研究开辟一些新的有前景的方向。