9 天前

重缩放自指视觉

Dima Damen, Hazel Doughty, Giovanni Maria Farinella, Antonino Furnari, Evangelos Kazakos, Jian Ma, Davide Moltisanti, Jonathan Munro, Toby Perrett, Will Price, Michael Wray
重缩放自指视觉
摘要

本文介绍了一套用于扩展第一人称视觉领域最大数据集EPIC-KITCHENS的处理流程。该工作最终形成了EPIC-KITCHENS-100数据集,包含100小时、2000万帧、9万个动作实例,涵盖700段长度各异的视频,记录了45种不同环境下的长期非剧本化日常活动,所有数据均通过头戴式相机采集。相较于前一版本,EPIC-KITCHENS-100采用了全新的标注流程,实现了更密集(每分钟动作数量增加54%)且更完整的细粒度动作标注(动作片段数量增加128%)。该数据集为一系列新研究挑战提供了支持,包括动作检测以及“时间考验”(test of time)评估——即检验在2018年数据上训练的模型是否能够泛化至两年后采集的新视频数据。该数据集与六大挑战任务对齐:动作识别(全监督与弱监督)、动作检测、动作预测、跨模态检索(从字幕检索视频)、以及动作识别的无监督域自适应。针对每一项挑战,本文均明确定义了任务目标,提供了基线方法,并给出了相应的评估指标。