18일 전

총 캡처: 비디오와 관성 센서를 융합한 3차원 인간 자세 추정

{and John Collomosse, Matthew Trumble, Charles Malleson, Adrian Hilton, Andrew Gilbert}
총 캡처: 비디오와 관성 센서를 융합한 3차원 인간 자세 추정
초록

다중 시점 영상(MVV)과 관성 측정 단위(IMU) 센서 데이터를 융합하기 위한 알고리즘을 제안한다. 이 알고리즘은 MVV 프레임에서 유도된 체적 확률적 시각 헐ล(PVH) 데이터로부터 3D 포즈 임베딩을 학습하기 위해 3차원 컨볼루션 신경망을 사용한다. 본 모델은 MVV에서 도출된 포즈 임베딩과 IMU 데이터의 전방 운동학적 해법을 통합하는 이중 스트림 네트워크 내에 통합된다. 두 스트림의 융합 전에 시간적 모델(LSTM)이 각각에 포함되어 있다. 이러한 상호보완적인 두 가지 데이터 소스를 활용한 하이브리드 포즈 추론은 각각의 센서 모달리티 내의 모호성을 해소하며, 기존 방법보다 향상된 정확도를 제공함을 보여준다. 본 연구의 또 다른 기여점은 상업용 움직임 캡처 시스템으로부터 유도된 뼈대 관절 지표를 포함하는 새로운 하이브리드 MVV 데이터셋인 TotalCapture의 구축이다. 이 데이터셋은 http://cvssp.org/data/totalcapture/ 에서 온라인으로 공개되어 있다.