2달 전

BABEL: 영어 라벨을 사용한 신체, 행동 및 행동 양식

Punnakkal, Abhinanda R. ; Chandrasekaran, Arjun ; Athanasiou, Nikos ; Quiros-Ramirez, Alejandra ; Black, Michael J.
BABEL: 영어 라벨을 사용한 신체, 행동 및 행동 양식
초록

인간 운동의 의미론을 이해하는 것 -- 즉, 운동의 내용, 방법, 그리고 이유 -- 은 의미론적 라벨이 포함된 인간 행동 데이터셋이 필요한 중요한 문제입니다. 기존 데이터셋은 두 가지 접근 방식 중 하나를 취합니다. 대규모 비디오 데이터셋은 많은 행동 라벨을 포함하고 있지만 실제 3D 인간 운동에 대한 진실값은 없습니다. 반면에 모션 캡처(mocap) 데이터셋은 정확한 신체 운동을 제공하지만 행동의 수가 제한되어 있습니다. 이를 해결하기 위해, 우리는 모션 캡처 시퀀스에서 수행되는 행동을 설명하는 언어 라벨을 포함하는 대규모 데이터셋인 BABEL을 소개합니다.BABEL은 AMASS에서 약 43시간 분량의 모션 캡처 시퀀스에 대한 행동 라벨로 구성되어 있습니다. 행동 라벨은 두 가지 추상 수준으로 나뉩니다 -- 시퀀스 라벨은 시퀀스 전체의 주요 행동을 설명하며, 프레임 라벨은 시퀀스의 모든 프레임에서 발생하는 모든 행동을 설명합니다. 각 프레임 라벨은 해당 모션 캡처 시퀀스에서의 행동 지속 시간과 정확히 맞춰져 있으며, 여러 개의 행동이 겹쳐질 수 있습니다. BABEL에는 28,000개 이상의 시퀀스 라벨과 63,000개 이상의 프레임 라벨이 있으며, 이들은 250개 이상의 고유한 행동 범주에 속합니다.BABEL의 라벨은 동작 인식, 시간적 동작 위치 결정, 모션 합성 등의 작업에 활용될 수 있습니다. BABEL이 벤치마크로서 가치를 입증하기 위해, 우리는 3D 동작 인식에서 모델들의 성능을 평가하였습니다. 우리는 BABEL이 실제 상황에 적용 가능한 흥미로운 학습 도전 과제를 제시하며, 3D 동작 인식 분야에서의 진보를 측정할 유용한 벤치마크가 될 수 있음을 보여주었습니다. 데이터셋, 기준 방법 및 평가 코드는 학술 연구 목적으로 https://babel.is.tue.mpg.de/에서 이용 가능하며 지원됩니다.