HyperAI超神经

AVA 全称 Atomic Visual Actions，是一个带有视听标注的视频数据集，旨在训练机器人理解人类活动。每个视频片段都有标注者进行详细标注，这些标注体现了多样化场景、记录条件和人类活动的表达。

该数据集标注包括：

Kinetics（AVA-Kinetics）：它是 AVA 和 Kinetics 的交叉产物。为了在更广泛的视觉场景上提供本土化的动作标签，作者在 Kinetics-700 的视频上提供了 AVA 动作标签，总标注数量几乎翻了一倍，某些特定种类的视频数量增加了 500 倍以上。
Actions（AvA-Actions）：AVA 数据集在 430 个 15 分钟的电影片段里密集标注了 80 个 atomic visual action，这些动作在空间和时间上被定位，产生了 162 万个动作标签，其中大量标签被频繁应用。
Spoken Activity（AVA ActiveSpeaker，AVA Speech）：AVA ActiveSpeaker 是将 AVA v1.0 视频中的声音和可视人脸联系起来，从而在约 3.9 万个人脸上标记了 365 万帧。 AVA Speech 在 AVA v1.0 视频中密集标注了语音活动，并明确标注了 3 种背景噪音条件，产生了时长 45 小时的约 4,600 个标注片段。

AVA 动作识别数据集