2달 전
학습된 피처 피라미드를 이용한 인간 포즈 추정
Wei Yang; Shuang Li; Wanli Ouyang; Hongsheng Li; Xiaogang Wang

초록
인체 자세 추정은 컴퓨터 비전에서 기본적이면서도 도전적인 과제입니다. 특히 카메라 시점이 변경되거나 심각한 원근감이 발생할 때 인체 부위의 크기 변화로 인해 이 과제의 어려움이 더욱 두드러집니다. 피라미드 방법은 추론 시 크기 변화를 처리하는 데 널리 사용되고 있지만, 깊은 합성곱 신경망(DCNNs)에서 피라미드 특징을 학습하는 것은 아직 충분히 연구되지 않았습니다. 본 연구에서는 DCNNs의 크기 불변성을 향상시키기 위해 피라미드 잔차 모듈(Pyramid Residual Modules, PRMs)을 설계하였습니다. 입력 특징에 대해 다양한 크기의 입력 특징에서 합성곱 필터를 학습하도록 PRMs가 설계되었으며, 이는 다중 분기 네트워크에서 서로 다른 하표본 비율을 통해 얻어집니다. 또한 우리는 최근 많은 과제에서 평범한 네트워크보다 우수한 성능을 보이는 다중 분기 네트워크의 가중치 초기화 방법을 기존 방법으로 적용하는 것이 적절하지 않다는 것을 관찰하였습니다. 따라서, 현재의 가중치 초기화 방식을 다중 분기 네트워크 구조로 확장하기 위한 이론적 유도를 제공하였습니다. 우리는 제안한 방법을 인체 자세 추정의 두 가지 표준 벤치마크에서 검증하였으며, 우리 접근법은 두 벤치마크 모두에서 최신 기술 수준의 결과를 얻었습니다. 코드는 https://github.com/bearpaw/PyraNet 에서 확인할 수 있습니다.