2달 전

NTU RGB+D 120: 대규모 3D 인간 활동 이해 벤치마크

Liu, Jun ; Shahroudy, Amir ; Perez, Mauricio ; Wang, Gang ; Duan, Ling-Yu ; Kot, Alex C.
NTU RGB+D 120: 대규모 3D 인간 활동 이해 벤치마크
초록

깊이 기반 인간 활동 분석 연구는 뛰어난 성능을 달성했으며, 행동 인식을 위한 3차원 표현의 효과성을 입증했습니다. 기존의 깊이 기반 및 RGB+D 기반 행동 인식 벤치마크에는 대규모 훈련 샘플 부족, 실제적인 클래스 카테고리 수, 카메라 시점의 다양성, 다양한 환경 조건, 그리고 인간 피실험자의 다양성 등 여러 제한 사항이 있습니다. 본 연구에서는 이러한 문제를 해결하기 위해 106명의 독립된 피실험자로부터 수집된 114,000개 이상의 비디오 샘플과 8백만 프레임을 포함하는 대규모 RGB+D 인간 행동 인식 데이터셋을 소개합니다. 이 데이터셋은 일상 활동, 상호 작용, 건강 관련 활동 등을 포함하여 120개의 다른 행동 클래스를 포함하고 있습니다. 우리는 이 데이터셋에서 기존의 여러 3차원 활동 분석 방법들의 성능을 평가하고, 3차원 기반 인간 활동 인식에 딥러닝 방법을 적용할 때의 우위성을 보여줍니다. 또한, 우리 데이터셋에서 새로운 원샷(One-Shot) 3차원 활동 인식 문제를 조사하며, 이 작업을 위한 간단하면서도 효과적인 동작-부분 의미 연관성 인지(Action-Part Semantic Relevance-aware, APSR) 프레임워크를 제안합니다. 이 프레임워크는 새로운 행동 클래스의 인식에 유망한 결과를 제공합니다. 우리는 이 대규모 데이터셋의 도입이 커뮤니티가 깊이 기반 및 RGB+D 기반 인간 활동 이해를 위해 다양한 데이터 중심 학습 기술을 적용하고 개발하는데 도움이 될 것이라고 믿습니다. [데이터셋은 다음 주소에서 이용 가능합니다: http://rose1.ntu.edu.sg/Datasets/actionRecognition.asp]