13일 전

비디오 내 3차원 인간 자세 추정을 위한 막힘 인지 네트워크

{ Robby T. Tan, Wending Yan, Bo Wang, Bo Yang, Yu Cheng}
비디오 내 3차원 인간 자세 추정을 위한 막힘 인지 네트워크
초록

단일 카메라 영상에서의 3차원 인간 자세 추정에서 음영(occlusion)은 핵심적인 문제이다. 이 문제를 해결하기 위해, 음영을 고려하는 딥러닝 프레임워크를 제안한다. 관절 키포인트의 2차원 신뢰도 히트맵(heatmap)을 추정하고 광학 흐름 일관성 제약 조건을 활용함으로써, 음영된 키포인트에 대한 신뢰할 수 없는 추정치를 제거한다. 음영이 발생할 경우, 완전한 2차원 키포인트 정보가 부족해지며, 이를 2차원 및 3차원 시계열 컨볼루션 네트워크(2D 및 3D TCN)에 입력한다. 이 네트워크는 시간적 부드러움을 강제함으로써 완전한 3차원 자세를 생성한다. 음영된 키포인트의 오류가 큰 추정치가 아닌, 부분적으로만 제공되는 2차원 키포인트를 사용함으로써, 본 연구의 네트워크는 음영에 의해 발생하는 오류에 덜 민감해진다. 음영 인식형 3차원 TCN을 훈련시키기 위해서는 3차원 자세와 음영 레이블이 부여된 2차원 자세의 쌍이 필요하다. 그러나 현재까지는 이러한 데이터셋이 존재하지 않기 때문에, 본 연구에서는 3차원 공간에서 신체 부위의 점유를 근사하기 위해 '실린더 맨 모델(Cylinder Man Model)'을 제안한다. 이 모델을 다양한 시점에서 2차원 평면에 투영함으로써 음영된 키포인트를 생성하고 레이블링함으로써, 풍부한 훈련 데이터를 확보할 수 있다. 또한 이 모델을 활용해 자세 정규화 제약 조건을 도입하여, 신뢰도가 낮은 키포인트의 2차원 추정치가 음영 상태를 선호하도록 유도한다. 제안한 방법은 Human 3.6M 및 HumanEva-I 데이터셋에서 최신 기술 대비 우수한 성능을 보였다.

비디오 내 3차원 인간 자세 추정을 위한 막힘 인지 네트워크 | 최신 연구 논문 | HyperAI초신경