
초록
이 연구는 인간 자세 추정을 위한 깊은 고해상도 표현 학습의 공식 PyTorch 구현입니다. 본 연구에서는 특히 신뢰성 있는 고해상도 표현을 학습하는 문제에 관심을 가지고 있습니다. 기존의 대부분 방법들은 고해상도 네트워크에서 생성된 저해상도 표현으로부터 고해상도 표현을 복원합니다. 반면에, 제안된 네트워크는 전체 과정 동안 고해상도 표현을 유지합니다. 첫 번째 단계로 고해상도 서브네트워크를 시작하여, 점진적으로 고해상도에서 저해상도로 변환하는 서브네트워크들을 하나씩 추가하여 더 많은 단계를 형성하고, 다중 해상도 서브네트워크들을 병렬로 연결합니다. 이를 통해 각각의 고해상도에서 저해상도로 변환하는 표현들이 다른 병렬 표현들로부터 지속적으로 정보를 받아들이게 되어 풍부한 고해상도 표현이 생성됩니다. 결과적으로 예측된 키포인트 히트맵은 잠재적으로 더욱 정확하고 공간적으로 더욱 정밀하게 됩니다. COCO 키포인트 검출 데이터셋과 MPII 인간 자세 데이터셋 두 개의 벤치마크 데이터셋을 통해 본 네트워크의 효과성을 실증적으로 입증하였습니다. 코드와 모델은 \url{https://github.com/leoxiaobin/deep-high-resolution-net.pytorch}에서 공개되어 있습니다.