2달 전
깊은 고해상도 표현 학습을 이용한 시각 인식
Wang, Jingdong ; Sun, Ke ; Cheng, Tianheng ; Jiang, Borui ; Deng, Chaorui ; Zhao, Yang ; Liu, Dong ; Mu, Yadong ; Tan, Mingkui ; Wang, Xinggang ; Liu, Wenyu ; Xiao, Bin

초록
고해상도 표현은 인간 자세 추정, 의미 분할, 객체 검출과 같은 위치에 민감한 시각 문제에서 필수적입니다. 기존의 최신 프레임워크는 먼저 고해상도에서 저해상도로 변환하는 합성곱 연산을 직렬로 연결한 하위 네트워크(예: ResNet, VGGNet)를 통해 입력 이미지를 저해상도 표현으로 인코딩하고, 그 다음에 인코딩된 저해상도 표현에서 고해상도 표현을 복원합니다. 대신에, 우리가 제안하는 네트워크인 고해상도 네트워크(High-Resolution Network, HRNet)는 전체 과정 동안 고해상도 표현을 유지합니다. 이 네트워크에는 두 가지 주요 특징이 있습니다: (i) 고해상도에서 저해상도로 변환하는 합성곱 스트림을 병렬로 연결합니다; (ii) 해상도 간 정보를 반복적으로 교환합니다. 이 방법의 장점은 결과적인 표현이 의미적으로 더 풍부하고 공간적으로 더 정확하다는 것입니다. 우리는 HRNet의 우수성을 인간 자세 추정, 의미 분할, 객체 검출 등 다양한 응용 분야에서 보여주며, 이는 HRNet이 컴퓨터 비전 문제에 대한 더 강력한 백본임을 시사합니다. 모든 코드는~{\url{https://github.com/HRNet}}에서 제공됩니다.