2달 전
효율적인 손 메시 재구성을 위한 간단한 베이스라인
Zhou, Zhishan ; zhou, Shihao. ; Lv, Zhi ; Zou, Minqiang ; Tang, Yao ; Liang, Jiajun

초록
3D 손 포즈 추정은 제스처 인식 및 인간-기계 상호작용과 같은 분야에서 널리 적용되고 있습니다. 성능이 향상됨에 따라 시스템의 복잡성도 증가하여, 이 방법들의 비교 분석과 실용적인 구현을 제한할 수 있습니다. 본 논문에서는 기존 최고 수준(SOTA) 방법들을 능가하면서도 계산 효율성을 보여주는 간단하면서도 효과적인 베이스라인을 제안합니다. 이 베이스라인을 설립하기 위해, 우리는 기존 연구를 두 가지 구성 요소로 추상화하였습니다: 토큰 생성기와 메시 회귀기입니다. 여기서 핵심 구조는 내재적 기능을 충족시키면서, 중요한 개선을 가져오고 불필요한 복잡성 없이 우수한 성능을 달성하는 구조를 의미합니다. 제안된 접근 방식은 백본에 대한 어떤 수정도 독립적이므로, 현대적인 모델들에 유연하게 적용될 수 있습니다. 우리의 방법은 여러 데이터셋에서 최고 수준(SOTA) 결과를 달성하며 기존 해결책들을 능가합니다. FreiHAND 데이터셋에서 우리의 접근 방식은 PA-MPJPE 5.7mm와 PA-MPVPE 6.0mm를 생성하였으며, Dexycb 데이터셋에서도 PA-MPJPE 5.5mm와 PA-MPVPE 5.0mm를 관찰하였습니다. 성능 속도 측면에서는 HRNet을 사용할 때 최대 33 프레임 초당(fps), FastViT-MA36를 사용할 때 최대 70 fps를 달성하였습니다.