2달 전

주목력-전파 네트워크를 이용한 제1인칭 히트맵에서 3D 포즈 추출

Kang, Taeho ; Lee, Youngki
주목력-전파 네트워크를 이용한 제1인칭 히트맵에서 3D 포즈 추출
초록

우리는 고도의 정확성을 갖춘 스테레오 에고센트릭 3D 자세 추정을 위한 히트맵-3D 자세 변환 방법인 EgoTAP를 제시합니다. 에고센트릭 카메라 뷰에서 심각한 자기 가림과 시야 밖의 지체는 정확한 자세 추정을 어렵게 만드는 문제입니다. 이러한 도전 과제를 해결하기 위해 기존 방법들은 신체 자세의 확률적 2D 표현인 관절 히트맵을 사용하지만, 히트맵-3D 자세 변환은 여전히 부정확한 과정입니다. 우리는 이 문제를 해결하기 위해 Grid ViT 인코더와 전파 네트워크로 구성된 새로운 히트맵-3D 리프팅 방법을 제안합니다. Grid ViT 인코더는 자기 주의 메커니즘(self-attention)을 사용하여 관절 히트맵을 효과적인 특성 임베딩으로 요약합니다. 그런 다음, 전파 네트워크는 골격 정보를 활용하여 가려진 관절의 위치를 더 잘 추정함으로써 3D 자세를 추정합니다. 우리의 방법은 MPJPE 측정에서 오류가 23.9% 감소하는 것으로 질적으로와 양적으로 이전 최신 연구보다 크게 우수한 성능을 보입니다. 우리의 소스 코드는 GitHub에서 이용할 수 있습니다.