3달 전

다중 시점 매칭(Multi-View Matching, MVM): 동작 정지 인체 영상으로 다중 인물 3D 자세 추정 학습 촉진

Yeji Shen, C.-C. Jay Kuo
다중 시점 매칭(Multi-View Matching, MVM): 동작 정지 인체 영상으로 다중 인물 3D 자세 추정 학습 촉진
초록

단일 이미지에서 다수의 사람에 대한 3차원 자세 추정이라는 도전적인 문제를 해결하기 위해, 본 연구에서는 다중 시점 매칭(Multi-view Matching, MVM) 방법을 제안한다. MVM 방법은 인공 인형을 모방하는 사람들의 동작이 정지된 상태를 담고 있는 대규모 영상 데이터셋인 Mannequin 데이터셋으로부터 신뢰할 수 있는 3차원 인간 자세를 생성한다. MVM을 통해 자동으로 생성된 3차원 레이블을 갖춘 방대한 실외 환경 영상 데이터를 활용하여, 단일 이미지를 입력으로 받아 다수의 사람에 대한 3차원 자세 추정을 수행할 수 있는 신경망을 학습시킬 수 있다. MVM의 핵심 기술은 정적인 장면의 다중 시점에서 얻은 2차원 자세를 효과적으로 정렬하는 데 있다. 이러한 장면은 강한 기하학적 제약 조건을 갖기 때문에, 여러 프레임에서 추정된 2차원 자세 간의 상호 일관성을 극대화하는 것이 목표이며, 이 과정에서 기하학적 제약 조건과 외형적 유사성 모두를 동시에 고려한다. MVM 방법이 제공하는 3차원 레이블의 효과를 입증하기 위해, 3DPW 및 MSCOCO 데이터셋에서 실험을 수행하였으며, 제안하는 방법이 최신 기술 수준의 성능을 달성함을 보였다.