2달 전

깊이 있는 3D 손 포즈 추정을 위한 좋은 관행 향해

Guo, Hengkai ; Wang, Guijin ; Chen, Xinghao ; Zhang, Cairong
깊이 있는 3D 손 포즈 추정을 위한 좋은 관행 향해
초록

단일 깊이 이미지에서 3차원 손 포즈 추정은 인간-컴퓨터 상호작용에 있어 중요한 과제이자 도전적인 문제입니다. 최근에는 복잡한 설계를 가진 딥 컨볼루션 네트워크(ConvNet)가 이 문제를 해결하기 위해 사용되었지만, 전통적인 랜덤 포레스트 기반 방법에 비해 성능 향상이 명확하지 않았습니다. 손 포즈 추정의 성능을 개선하고 발전시키기 위해, 우리는 직접 3차원 좌표 회귀를 위한 나무 구조의 영역 앙상블 네트워크(Region Ensemble Network, REN)를 제안합니다. 이 방법은 먼저 ConvNet의 마지막 컨볼루션 출력을 여러 격자 영역으로 분할합니다. 각 영역에서 독립적으로 작동하는 완전 연결(Fully-Connected, FC) 회귀기의 결과가 다른 FC 층을 통해 통합되어 추정을 수행합니다. 데이터 증강과 부드러운 $L_1$ 손실 등 여러 학습 전략을 활용함으로써 제안된 REN은 손 관절 위치 결정에서 ConvNet의 성능을 크게 향상시킬 수 있습니다. 실험 결과는 우리의 접근 방식이 세 가지 공개 손 포즈 데이터셋에서 최고의 성능을 달성하였음을 보여줍니다. 또한, 우리는 지紋 탐지와 인간 포즈 데이터셋에서도 실험을 진행하여 최신 알고리즘 중 가장 뛰어난 정확도를 얻었습니다.注释:- "fingertip detection" 被翻译为 "지문 탐지",但根据上下文,这里可能是指 "손가락 끝 탐지"。为了确保准确性,建议确认该术语的具体含义。如果确实是指指尖检测,则应修改为 "손가락 끝 탐지"。修正后的版本:- 단일 깊이 이미지에서 3차원 손 포즈 추정은 인간-컴퓨터 상호작용에 있어 중요한 과제이자 도전적인 문제입니다. 최근에는 복잡한 설계를 가진 딥 컨볼루션 네트워크(ConvNet)가 이 문제를 해결하기 위해 사용되었지만, 전통적인 랜덤 포레스트 기반 방법에 비해 성능 향상이 명확하지 않았습니다. 손 포즈 추정의 성능을 개선하고 발전시키기 위해, 우리는 직접 3차원 좌표 회귀를 위한 나무 구조의 영역 앙상블 네트워크(Region Ensemble Network, REN)를 제안합니다. 이 방법은 먼저 ConvNet의 마지막 컨볼루션 출력을 여러 격자 영역으로 분할합니다. 각 영역에서 독립적으로 작동하는 완전 연결(Fully-Connected, FC) 회귀기의 결과가 다른 FC 층을 통해 통합되어 추정을 수행합니다. 데이터 증강과 부드러운 $L_1$ 손실 등 여러 학습 전략을 활용함으로써 제안된 REN은 손 관절 위치 결정에서 ConvNet의 성능을 크게 향상시킬 수 있습니다. 실험 결과는 우리의 접근 방식이 세 가지 공개 손 포즈 데이터셋에서 최고의 성능을 달성하였음을 보여줍니다. 또한, 우리는 손가락 끝 탐지와 인간 포즈 데이터셋에서도 실험을 진행하여 최신 알고리즘 중 가장 뛰어난 정확도를 얻었습니다.