9 天前
BSL-1K:利用口动线索实现协同手语识别的规模化
Samuel Albanie, Gül Varol, Liliane Momeni, Triantafyllos Afouras, Joon Son Chung, Neil Fox, Andrew Zisserman

摘要
近年来,在细粒度手势与动作分类以及机器翻译领域的进展,预示着自动手语识别技术有望成为现实。然而,实现这一目标的关键障碍在于缺乏合适的训练数据,这主要源于手语标注过程的高度复杂性,以及合格标注人员的严重短缺。本文提出一种新型可扩展的数据采集方法,用于连续视频中的手语识别任务。我们利用广播视频中弱对齐的字幕,并结合关键词检测技术,实现了对1000小时视频中1000个手语词汇实例的自动定位。本文的主要贡献如下:(1)我们展示如何利用手语使用者的口型线索从视频数据中获取高质量的标注信息——由此构建了BSL-1K数据集,这是一个规模空前的英国手语(British Sign Language, BSL)手语词汇集合;(2)我们证明,利用BSL-1K数据集可训练出性能优异的模型,用于识别BSL中连贯书写的复合手势,且该模型在其他手语及基准测试中亦表现出卓越的预训练能力——在MSASL和WLASL两个主流基准上均超越了当前最先进水平;(3)我们提出了面向手语识别与手语定位任务的新一代大规模评估数据集,并提供了相应的基线模型,旨在推动该领域的进一步研究发展。