2 个月前
时间瞬间数据集:一百万视频用于事件理解
Monfort, Mathew ; Andonian, Alex ; Zhou, Bolei ; Ramakrishnan, Kandan ; Bargal, Sarah Adel ; Yan, Tom ; Brown, Lisa ; Fan, Quanfu ; Gutfruend, Dan ; Vondrick, Carl ; Oliva, Aude

摘要
我们介绍了“时光瞬间”数据集(Moments in Time Dataset),这是一个大规模的人工标注视频集合,包含一百万个时长为三秒的短视频,记录了动态事件的发生过程。即使对于仅持续三秒的动作,建模其空间-音频-时间动态仍然面临许多挑战:有意义的事件不仅涉及人类,还包括物体、动物和自然现象;视觉和听觉事件在时间上可以是对称的(例如,“打开”在反向播放时即为“关闭”),并且可能是瞬时的或持续的。本文描述了该数据集的标注过程(每个视频被标记为339个不同类别中的一个动作或活动标签),分析了其规模和多样性与其他用于动作识别的大规模视频数据集相比的情况,并报告了几种基线模型的结果,这些模型分别从空间、时间和听觉三个模态单独和联合地进行了处理。“时光瞬间”数据集旨在涵盖广泛且多样的视觉和听觉事件,可以作为新的挑战来开发能够达到人类日常处理复杂性和抽象推理水平的模型。