AVA 全称 Atomic Visual Actions,是一个带有视听标注的视频数据集,旨在训练机器人理解人类活动。每个视频片段都有标注者进行详细标注,这些标注体现了多样化场景、记录条件和人类活动的表达。
该数据集标注包括:
- Kinetics(AVA-Kinetics):它是 AVA 和 Kinetics 的交叉产物。为了在更广泛的视觉场景上提供本土化的动作标签,作者在 Kinetics-700 的视频上提供了 AVA 动作标签,总标注数量几乎翻了一倍,某些特定种类的视频数量增加了 500 倍以上。
- Actions(AvA-Actions):AVA 数据集在 430 个 15 分钟的电影片段里密集标注了 80 个 atomic visual action,这些动作在空间和时间上被定位,产生了 162 万个动作标签,其中大量标签被频繁应用。
- Spoken Activity(AVA ActiveSpeaker,AVA Speech):AVA ActiveSpeaker 是将 AVA v1.0 视频中的声音和可视人脸联系起来,从而在约 3.9 万个人脸上标记了 365 万帧。 AVA Speech 在 AVA v1.0 视频中密集标注了语音活动,并明确标注了 3 种背景噪音条件,产生了时长 45 小时的约 4,600 个标注片段。