17일 전
인간의 자세를 구성적 토큰으로서 이해하기
Zigang Geng, Chunyu Wang, Yixuan Wei, Ze Liu, Houqiang Li, Han Hu

초록
인간 자세는 일반적으로 신체 관절의 좌표 벡터 또는 그들의 히트맵 임베딩으로 표현된다. 데이터 처리에 용이하지만, 신체 관절 간의 종속성 모델링이 부족하여 현실적이지 않은 자세 추정이 발생할 수 있다. 본 논문에서는 관절 간 종속성을 탐색하기 위해 구조적 표현 방식인 '조합적 토큰으로서의 자세(Pose as Compositional Tokens, PCT)'를 제안한다. 이 방식은 M개의 이산적 토큰으로 자세를 표현하며, 각 토큰은 여러 상호의존적인 관절을 포함하는 하위 구조를 특징화한다. 조합적 설계 덕분에 낮은 비용으로도 작은 재구성 오차를 달성할 수 있다. 이후 자세 추정을 분류 문제로 변환한다. 구체적으로, 이미지로부터 M개의 토큰에 대한 카테고리를 예측하는 분류기를 학습한다. 이후 사전 학습된 디코더 네트워크를 사용하여 토큰들로부터 자세를 복원하며, 추가적인 후처리 없이도 결과를 도출한다. 제안한 방법은 일반적인 시나리오에서 기존 방법과 비교해 우수하거나 유사한 자세 추정 성능을 보이며, 실생활에서 흔히 발생하는 가림 현상이 있는 경우에도 안정적으로 작동함을 보여준다. 코드와 모델은 공개적으로 제공되며, https://github.com/Gengzigang/PCT 에서 확인할 수 있다.