2 个月前
AVA:时空局部化的原子视觉行为视频数据集
Chunhui Gu; Chen Sun; David A. Ross; Carl Vondrick; Caroline Pantofaru; Yeqing Li; Sudheendra Vijayanarasimhan; George Toderici; Susanna Ricco; Rahul Sukthankar; Cordelia Schmid; Jitendra Malik

摘要
本文介绍了一个时空局部化的原子视觉动作(Atomic Visual Actions, AVA)视频数据集。AVA 数据集在430个15分钟的视频片段中密集标注了80种原子视觉动作,这些动作在空间和时间上进行了定位,从而产生了158万个动作标签,其中多人同时出现多个标签的情况非常普遍。该数据集的关键特征包括:(1) 定义为原子视觉动作而非复合动作;(2) 精确的时空标注,每个人可能有多个标注;(3) 在15分钟的视频片段中对这些原子动作进行详尽标注;(4) 在连续的时间段内将人物进行时间上的关联;(5) 利用电影来收集多样化的动作表示。这与现有的时空动作识别数据集不同,后者通常在短小的视频片段中提供稀疏的复合动作标注。我们将公开发布该数据集。AVA 数据集以其真实的场景和复杂的动作暴露了动作识别的内在难度。为了对此进行基准测试,我们提出了一种新的动作定位方法,该方法基于当前最先进的技术,并在JHMDB和UCF101-24类别上展示了更好的性能。尽管在现有数据集上设定了新的最先进水平,但在AVA上的整体结果仅为15.6%的平均精度均值(mAP),突显了开发新方法以提高视频理解能力的必要性。