AVA 동작 인식 데이터 세트

AVA는 Atomic Visual Actions의 약자로, 로봇이 인간의 활동을 이해하도록 훈련시키기 위해 고안된 오디오-비주얼 주석이 포함된 비디오 데이터 세트입니다. 각 비디오 클립에는 주석가가 자세한 주석을 달아 다양한 장면, 녹화 조건, 인간 활동의 표현을 반영합니다.
데이터 세트 주석에는 다음이 포함됩니다.
- Kinetics (AVA-Kinetics): AVA와 Kinetics의 혼합형입니다. 더 다양한 시각적 장면에 대해 지역화된 동작 레이블을 제공하기 위해 저자는 Kinetics-700 비디오에 AVA 동작 레이블을 제공하여 총 주석 수를 거의 두 배로 늘리고 특정 범주의 비디오 수를 500배 이상 늘렸습니다.
- 동작(AvA-Actions): AVA 데이터 세트는 430개의 15분 분량의 동영상 클립에서 80개의 원자적 시각적 동작을 밀접하게 주석 처리합니다. 이러한 동작은 공간과 시간에 위치하며 162만 개의 동작 레이블을 생성하는데, 그 중 상당수가 자주 사용됩니다.
- 음성 활동(AVA ActiveSpeaker, AVA Speech): AVA ActiveSpeaker는 AVA v1.0 비디오에서 소리와 눈에 보이는 얼굴을 연관시켜 약 39,000개의 얼굴이 표시된 365만 개의 프레임을 생성합니다. AVA Speech는 AVA v1.0 비디오의 음성 활동에 대해 집중적으로 주석을 달고, 세 가지 배경 소음 조건에 대해 명시적으로 주석을 달아, 45시간 분량의 약 4,600개 클립에 대한 주석을 작성합니다.
AVA.torrent
시딩 1다운로드 중 1완료됨 496총 다운로드 횟수 525