
摘要
本文介绍了一个从网络视频中收集的人类行为识别和时间定位的新大规模数据集。我们将其称为HACS(人类行为片段和段落)。我们利用视觉分类器之间的共识和分歧,自动从未标注的视频中挖掘候选短片段,这些片段随后由人工注释者进行验证。最终生成的数据集被称为HACS Clips。通过另一个独立的过程,我们还收集了定义动作段边界的注释。由此产生的数据集被命名为HACS Segments。总体而言,HACS Clips包含从50.4万部未剪辑视频中采样的150万个已标注片段,而HACS Segments则包含在5万部未剪辑视频中密集标注的13.9万个动作段,涵盖200个动作类别。HACS Clips所含的标注示例数量超过了任何现有的视频基准数据集,这使得我们的数据集不仅成为了一个大规模的动作识别基准,也是时空特征学习的优秀资源。在针对三个目标数据集的迁移学习实验中,HACS Clips作为预训练源的表现优于Kinetics-600、Moments-In-Time和Sports1M。对于HACS Segments,我们评估了最先进的动作提案生成和动作定位方法,并强调了我们的密集时间注释所带来的新挑战。