HyperAI초신경

AVA 동작 인식 데이터 세트

날짜

3년 전

크기

52.82 MB

기관

캘리포니아대학교 버클리대학교

발행 주소

research.google.com

라이선스

CC BY 4.0

카테고리

特色图像

AVA는 Atomic Visual Actions의 약자로, 로봇이 인간의 활동을 이해하도록 훈련시키기 위해 고안된 오디오-비주얼 주석이 포함된 비디오 데이터 세트입니다. 각 비디오 클립에는 주석가가 자세한 주석을 달아 다양한 장면, 녹화 조건, 인간 활동의 표현을 반영합니다.

데이터 세트 주석에는 다음이 포함됩니다.

  • Kinetics (AVA-Kinetics): AVA와 Kinetics의 혼합형입니다. 더 다양한 시각적 장면에 대해 지역화된 동작 레이블을 제공하기 위해 저자는 Kinetics-700 비디오에 AVA 동작 레이블을 제공하여 총 주석 수를 거의 두 배로 늘리고 특정 범주의 비디오 수를 500배 이상 늘렸습니다.
  • 동작(AvA-Actions): AVA 데이터 세트는 430개의 15분 분량의 동영상 클립에서 80개의 원자적 시각적 동작을 밀접하게 주석 처리합니다. 이러한 동작은 공간과 시간에 위치하며 162만 개의 동작 레이블을 생성하는데, 그 중 상당수가 자주 사용됩니다.
  • 음성 활동(AVA ActiveSpeaker, AVA Speech): AVA ActiveSpeaker는 AVA v1.0 비디오에서 소리와 눈에 보이는 얼굴을 연관시켜 약 39,000개의 얼굴이 표시된 365만 개의 프레임을 생성합니다. AVA Speech는 AVA v1.0 비디오의 음성 활동에 대해 집중적으로 주석을 달고, 세 가지 배경 소음 조건에 대해 명시적으로 주석을 달아, 45시간 분량의 약 4,600개 클립에 대한 주석을 작성합니다.
AVA.torrent
시딩 1다운로드 중 1완료됨 496총 다운로드 횟수 525
  • AVA/
    • README.md
      1.9 KB
    • README.txt
      3.79 KB
      • data/
          • AVA Actions (v2.2)/
            • ava_included_timestamps_v2.2.txt
              8.17 KB
            • ava_test_excluded_timestamps_v2.2.csv
              9.27 KB
            • ava_train_excluded_timestamps_v2.2.csv
              11.94 KB
            • ava_train_v2.2.csv.zip
              5.44 MB
            • ava_v2.2.zip
              12.81 MB
            • ava_val_excluded_timestamps_v2.2.csv
              12.81 MB
            • ava_val_v2.2.csv.zip
              14.34 MB
          • AVA Active Speaker (v1.0)/
            • ava_activespeaker_train_v1.0.tar.bz2
              31.69 MB
            • ava_activespeaker_val_v1.0.tar.bz2
              36.55 MB
          • AVA Speech (v1.0)/
            • ava_speech_labels_v1.csv
              38.11 MB
          • AVA-Kinetics (v1.0)/
            • ava_kinetics_v1_0.tar.gz
              52.82 MB