2달 전

비지도 3D 자세 추정을 이용한 계층적 댄스 비디오 인식

Xiaodan Hu; Narendra Ahuja
비지도 3D 자세 추정을 이용한 계층적 댄스 비디오 인식
초록

무용 전문가들은 무용을 원시 이미지와 이미지 시퀀스(저레벨), 인간 자세 및 신체부위 움직임(중레벨), 그리고 무용 장르(고레벨)로 구성된 정보의 계층 구조로 종종 인식합니다. 본 연구에서는 계층적 무용 비디오 인식 프레임워크(Hierarchical Dance Video Recognition, HDVR)를 제안합니다. HDVR는 2D 자세 시퀀스를 추정하고, 무용수들을 추적한 후, 3D 자세의 지면 진실값을 요구하지 않고 해당 3D 자세와 3D-2D 영상 매개변수를 동시에 추정합니다. 대부분의 방법이 단일 사람에 초점을 맞추는 것과 달리, 우리의 추적 방법은 다중 무용수와 가림 현상을 포함하여 작동합니다. 추정된 3D 자세 시퀀스에서 HDVR는 신체부위 움직임을 추출하고, 이를 통해 무용 장르를 식별합니다. 이로 인해 생성되는 계층적 무용 표현은 전문가들에게 설명 가능합니다. 노이즈와 프레임 간 대응 관계의 모호성을 극복하기 위해, 우리는 시간적으로 연속적인 공간적 및 시간적 운동 평활성을 강제 적용합니다. 우리는 LSTM 네트워크를 사용하여 3D 운동 하위 시퀀스를 추출하고, 이를 통해 무용 장르를 인식합니다.실험을 위해, 우리는 16개의 신체부위에 대한 154개의 움직임 유형을 식별하였으며, 이들을 포함하는 새로운 일리노이대학교 무용 데이터셋(University of Illinois Dance Dataset, UID)을 구성하였습니다. 이 데이터셋은 9개의 장르를 포함하는 총 30시간 분량의 1143개 비디오 클립으로 이루어져 있으며, 움직임과 장르 라벨로 주석이 달려 있습니다. 실험 결과는 우리의 알고리즘이 최신의 3D 자세 추정 방법론보다 우수함을 입증하며, 이는 우리의 무용 인식 성능도 향상시킵니다.

비지도 3D 자세 추정을 이용한 계층적 댄스 비디오 인식 | 최신 연구 논문 | HyperAI초신경