1 个月前
扩展以自我为中心的视觉:EPIC-KITCHENS 数据集
Dima Damen; Hazel Doughty; Giovanni Maria Farinella; Sanja Fidler; Antonino Furnari; Evangelos Kazakos; Davide Moltisanti; Jonathan Munro; Toby Perrett; Will Price; Michael Wray

摘要
第一人称视角视觉因其能够提供人们与物体互动、注意力乃至意图的独特视角而日益受到关注。然而,由于缺乏足够大规模的数据集,这一具有挑战性的领域的进展相对缓慢。在本文中,我们介绍了EPIC-KITCHENS,这是一个由32名参与者在其家庭厨房环境中录制的大规模第一人称视频基准数据集。我们的视频描绘了非脚本化的日常活动:我们只是要求每位参与者每次进入厨房时开始录像。录像分别在北美洲和欧洲的4个城市进行,参与者来自10个不同的国家,因此烹饪风格非常多样。我们的数据集包含55小时的视频,共计1150万帧,并对其进行了密集标注,共包含39600个动作片段和454300个物体边界框。我们的标注方法独特之处在于让参与者在录制完成后对自己的视频进行叙述,从而反映了真实的意图,并基于这些叙述通过众包方式获取了真实标签。我们描述了物体识别、动作识别和预测挑战,并在两个测试集(已见和未见的厨房)上评估了几种基线模型。数据集和项目页面:http://epic-kitchens.github.io