17일 전

HAA500: 보정된 영상이 포함된 인간 중심 원자 단위 동작 데이터셋

Jihoon Chung, Cheng-hsin Wuu, Hsuan-ru Yang, Yu-Wing Tai, Chi-Keung Tang
HAA500: 보정된 영상이 포함된 인간 중심 원자 단위 동작 데이터셋
초록

우리는 500개의 클래스를 포함하며 591,000개 이상의 레이블링 프레임을 보유한 인간 중심의 원자적 동작(atomic action) 데이터셋인 HAA500을 제안한다. 동작 분류 시 발생할 수 있는 모호성을 최소화하기 위해, HAA500은 세밀한 수준의 원자적 동작을 포함하는 매우 다양한 클래스로 구성되어 있으며, 동일한 레이블에 포함되는 동작은 반드시 일관된 동작이어야 한다. 예를 들어, "야구 투구(Baseball Pitching)"와 "농구의 프리스ロー(Free Throw in Basketball)"는 서로 다른 동작으로 구분된다. 이와 같이, HAA500은 기존의 원자적 동작 데이터셋과 구분되며, 기존 데이터셋은 '던지기(Throw)'와 같이 일반적인 동작 동사로 근사적인 원자적 동작을 레이블링한 반면, HAA500은 더 세밀한 동작 분류를 제공한다. HAA500는 인간의 움직임을 정확히 포착하기 위해 철저히 셀렉션되었으며, 클래스와 무관한 움직임이나 공간-시간적 레이블 노이즈가 거의 포함되어 있지 않다. HAA500의 장점은 네 가지이다: 1) 인간 중심의 동작으로, 관련 인간 자세의 평균 69.7%의 관절이 탐지 가능하다; 2) 확장성이 뛰어나며, 새로운 클래스를 추가하는 데 20~60분 내에 완료할 수 있다; 3) 불필요한 프레임 없이 원자적 동작의 핵심 요소를 정확히 포착한 촬영 영상이 포함되어 있다; 4) 세밀한 수준의 원자적 동작 클래스를 제공한다. 본 연구에서는 야생에서 수집된 데이터셋을 활용한 교차 데이터 검증을 포함한 광범위한 실험을 수행하였으며, HAA500의 인간 중심성과 원자적 특성이 기초적인 딥러닝 모델의 예측 성능 향상에 명확한 이점을 제공함을 입증하였다. 또한, HAA500 데이터셋의 통계 및 수집 방법을 상세히 설명하고, 기존의 동작 인식 데이터셋들과의 정량적 비교를 수행하였다.