2달 전

Jointformer: 단일 프레임 리프팅 트랜스포머와 오차 예측 및 정제를 이용한 3D 인간 포즈 추정

Lutz, Sebastian ; Blythman, Richard ; Ghosal, Koustav ; Moynihan, Matthew ; Simms, Ciaran ; Smolic, Aljosa
Jointformer: 단일 프레임 리프팅 트랜스포머와 오차 예측 및 정제를 이용한 3D 인간 포즈 추정
초록

단일 카메라 3D 인간 자세 추정 기술은 인간 운동 데이터의 접근성을 크게 높일 잠재력을 가지고 있습니다. 단일 이미지 2D-3D 변환에서 가장 성능이 우수한 모델들은 일반적으로 각 관절 간의 관계를 정의하기 위해 일부 수작업 입력을 필요로 하는 그래프 컨볼루셔널 네트워크(GCNs)를 사용합니다. 우리는 이러한 관계를 관절을 나타내는 토큰 시퀀스 내에서 학습할 수 있는 더 일반화된 자기 주의 메커니즘을 활용하는 새로운 트랜스포머 기반 접근법을 제안합니다. 중간 감독의 사용과 스택된 인코더 사이의 잔차 연결이 성능에 유리하다는 것을 발견했습니다. 또한, 오류 예측을 다중 작업 학습 프레임워크의 일부로 사용하면 네트워크가 자신감 수준을 보완하여 성능이 향상된다는 점도 제안합니다. 우리는 광범위한 축소 연구(ablation studies)를 수행하여 우리의 각 기여가 성능을 개선한다는 것을 보여주었습니다. 더욱이, 우리의 접근법이 단일 프레임 3D 인간 자세 추정에서 최근 최신 기술(state of the art)보다 크게 우수함을 입증하였습니다. 우리의 코드와 학습된 모델은 Github에서 공개적으로 이용 가능합니다.