2달 전

SimpleEgo: Egocentric 카메라로부터 확률론적 신체 자세 예측

Cuevas-Velasquez, Hanz ; Hewitt, Charlie ; Aliakbarian, Sadegh ; Baltrušaitis, Tadas
SimpleEgo: Egocentric 카메라로부터 확률론적 신체 자세 예측
초록

우리의 연구는 헤드마운트 디바이스(HMD)에 장착된 하향식 카메라에서 얻은 이미지를 통해 제1인칭 관점의 인간 자세 추정 문제를 다룹니다. 이는 몸체의 일부가 이미지 범위 밖으로 나가거나 가려지는 경우가 많아 어려운 시나리오를 제공합니다. 기존의 해결책들은 물고기 눈 렌즈(fish-eye camera lenses)를 사용하여 더 넓은 시야를 포착함으로써 이 문제를 최소화하려고 하지만, 이는 하드웨어 설계상의 문제를 야기할 수 있습니다. 또한, 각 관절에 대한 2D 히트맵을 예측하고 이를 3D 공간으로 변환하여 자기 가림(self-occlusions)을 처리하지만, 이 방법은 대규모 네트워크 구조가 필요해 리소스 제약이 있는 HMD에 실용적이지 않습니다.우리는 일반적인 직선형 카메라 렌즈(conventional rectilinear camera lenses)로 캡처한 이미지를 사용하여 자세를 예측합니다. 이는 하드웨어 설계 문제를 해결하지만, 몸체 일부가 화면 밖으로 나가는 경우가 많습니다. 따라서, 매개변수화된 신체 모델을 위해 행렬 피셔 분포(matrix Fisher distributions)로 표현되는 확률적 관절 회전을 직접 회귀(regress)합니다. 이를 통해 자세 불확실성을 정량화하고 화면 밖이나 가려진 관절을 설명할 수 있습니다. 또한, 2D 히트맵 계산이 필요 없어져 DNN 구조가 단순화되고 컴퓨팅 요구량이 줄어듭니다.제1인칭 관점 데이터셋이 직선형 카메라 렌즈를 사용한 것이 부족한 상황에서, 우리는 60,000장의 스테레오 이미지를 포함하며 다양한 자세, 형태, 의상 및 피부색을 보유한 합성 데이터셋인 SynthEgo 데이터셋을 소개합니다. 우리의 접근 방식은 이러한 어려운 구성에서 최고 수준의 결과를 달성하며, 전체적으로 관절 위치 오차(mean per-joint position error)를 23% 감소시키고 하반신에서는 58% 감소시킵니다. 또한 우리의 아키텍처는 현재 최고 수준의 방법보다 매개변수 개수가 8배 적으며 실행 속도는 두 배 빠릅니다. 실험 결과, 합성 데이터셋에서 학습한 모델이 미세 조정(fine-tuning) 없이 실제 세계 이미지에도 잘 일반화됨을 확인하였습니다.