AVA 动作识别数据集

日期

2 年前

大小

52.82 MB

机构

University of California Berkeley

许可协议

CC BY 4.0

特色图像

AVA 全称 Atomic Visual Actions,是一个带有视听标注的视频数据集,旨在训练机器人理解人类活动。每个视频片段都有标注者进行详细标注,这些标注体现了多样化场景、记录条件和人类活动的表达。

该数据集标注包括:

  • Kinetics(AVA-Kinetics):它是 AVA 和 Kinetics 的交叉产物。为了在更广泛的视觉场景上提供本土化的动作标签,作者在 Kinetics-700 的视频上提供了 AVA 动作标签,总标注数量几乎翻了一倍,某些特定种类的视频数量增加了 500 倍以上。
  • Actions(AvA-Actions):AVA 数据集在 430 个 15 分钟的电影片段里密集标注了 80 个 atomic visual action,这些动作在空间和时间上被定位,产生了 162 万个动作标签,其中大量标签被频繁应用。
  • Spoken Activity(AVA ActiveSpeaker,AVA Speech):AVA ActiveSpeaker 是将 AVA v1.0 视频中的声音和可视人脸联系起来,从而在约 3.9 万个人脸上标记了 365 万帧。 AVA Speech 在 AVA v1.0 视频中密集标注了语音活动,并明确标注了 3 种背景噪音条件,产生了时长 45 小时的约 4,600 个标注片段。
AVA.torrent

做种 2

下载中 0

已完成 309

总下载 349

  • AVA/
    • README.md
      1.9 KB
    • README.txt
      3.79 KB
      • data/
          • AVA Actions (v2.2)/
            • ava_included_timestamps_v2.2.txt
              8.17 KB
            • ava_test_excluded_timestamps_v2.2.csv
              9.27 KB
            • ava_train_excluded_timestamps_v2.2.csv
              11.94 KB
            • ava_train_v2.2.csv.zip
              5.44 MB
            • ava_v2.2.zip
              12.81 MB
            • ava_val_excluded_timestamps_v2.2.csv
              12.81 MB
            • ava_val_v2.2.csv.zip
              14.34 MB
          • AVA Active Speaker (v1.0)/
            • ava_activespeaker_train_v1.0.tar.bz2
              31.69 MB
            • ava_activespeaker_val_v1.0.tar.bz2
              36.55 MB
          • AVA Speech (v1.0)/
            • ava_speech_labels_v1.csv
              38.11 MB
          • AVA-Kinetics (v1.0)/
            • ava_kinetics_v1_0.tar.gz
              52.82 MB