2 个月前

AVA：时空局部化的原子视觉行为视频数据集

Chunhui Gu; Chen Sun; David A. Ross; Carl Vondrick; Caroline Pantofaru; Yeqing Li; Sudheendra Vijayanarasimhan; George Toderici; Susanna Ricco; Rahul Sukthankar; Cordelia Schmid; Jitendra Malik

查看论文详情

摘要

本文介绍了一个时空局部化的原子视觉动作（Atomic Visual Actions, AVA）视频数据集。AVA 数据集在430个15分钟的视频片段中密集标注了80种原子视觉动作，这些动作在空间和时间上进行了定位，从而产生了158万个动作标签，其中多人同时出现多个标签的情况非常普遍。该数据集的关键特征包括：(1) 定义为原子视觉动作而非复合动作；(2) 精确的时空标注，每个人可能有多个标注；(3) 在15分钟的视频片段中对这些原子动作进行详尽标注；(4) 在连续的时间段内将人物进行时间上的关联；(5) 利用电影来收集多样化的动作表示。这与现有的时空动作识别数据集不同，后者通常在短小的视频片段中提供稀疏的复合动作标注。我们将公开发布该数据集。AVA 数据集以其真实的场景和复杂的动作暴露了动作识别的内在难度。为了对此进行基准测试，我们提出了一种新的动作定位方法，该方法基于当前最先进的技术，并在JHMDB和UCF101-24类别上展示了更好的性能。尽管在现有数据集上设定了新的最先进水平，但在AVA上的整体结果仅为15.6%的平均精度均值（mAP），突显了开发新方法以提高视频理解能力的必要性。