2달 전

HACS: 인식 및 시간적 위치 결정을 위한 인간 행동 클립 및 세그먼트 데이터셋

Hang Zhao; Antonio Torralba; Lorenzo Torresani; Zhicheng Yan
HACS: 인식 및 시간적 위치 결정을 위한 인간 행동 클립 및 세그먼트 데이터셋
초록

본 논문은 웹 비디오에서 수집된 인간 행동의 인식 및 시간적 위치 추정을 위한 새로운 대규모 데이터셋을 제시합니다. 이 데이터셋을 HACS (Human Action Clips and Segments)라고 지칭합니다. 우리는 시각 분류기들 사이의 합의와 불일치를 활용하여 라벨이 부여되지 않은 비디오에서 후보 짧은 클립들을 자동으로 채굴한 후, 이를 인간 주석자들이 검증하였습니다. 이렇게 생성된 데이터셋을 HACS Clips라고 명명하였습니다. 별도의 과정을 통해 행동 구간 경계를 정의하는 주석들을 수집하였으며, 이 결과물은 HACS Segments로 알려져 있습니다. 전체적으로, HACS Clips는 504,000개의 미가공 비디오에서 샘플링된 150만 개의 주석이 달린 클립으로 구성되어 있으며, HACS Segments는 200개의 행동 범주에 걸쳐 50,000개의 미가공 비디오에 밀집적으로 주석이 달린 139,000개의 행동 구간을 포함하고 있습니다. HACS Clips는 기존의 모든 비디오 벤치마크보다 더 많은 라벨이 부여된 예제를 포함하고 있어, 우리의 데이터셋은 대규모 행동 인식 벤치마크뿐만 아니라 공간-시간 특성 학습에 우수한 자료원입니다. 세 개의 대상 데이터셋에서 수행한 전이학습 실험에서는 HACS Clips가 Kinetics-600, Moments-In-Time 및 Sports1M보다 사전 학습 자료로서 우수한 성능을 보였습니다. 또한 HACS Segments에서는 행동 제안 생성 및 행동 위치 추정 방법들의 최신 기술 수준 성능을 평가하고, 우리의 밀집 시간 주석이 제기하는 새로운 도전 과제들을 강조하였습니다.

HACS: 인식 및 시간적 위치 결정을 위한 인간 행동 클립 및 세그먼트 데이터셋 | 최신 연구 논문 | HyperAI초신경