2달 전

깊은 고해상도 표현 학습을 이용한 시각 인식

Wang, Jingdong ; Sun, Ke ; Cheng, Tianheng ; Jiang, Borui ; Deng, Chaorui ; Zhao, Yang ; Liu, Dong ; Mu, Yadong ; Tan, Mingkui ; Wang, Xinggang ; Liu, Wenyu ; Xiao, Bin
깊은 고해상도 표현 학습을 이용한 시각 인식
초록

고해상도 표현은 인간 자세 추정, 의미 분할, 객체 검출과 같은 위치에 민감한 시각 문제에서 필수적입니다. 기존의 최신 프레임워크는 먼저 고해상도에서 저해상도로 변환하는 합성곱 연산을 직렬로 연결한 하위 네트워크(예: ResNet, VGGNet)를 통해 입력 이미지를 저해상도 표현으로 인코딩하고, 그 다음에 인코딩된 저해상도 표현에서 고해상도 표현을 복원합니다. 대신에, 우리가 제안하는 네트워크인 고해상도 네트워크(High-Resolution Network, HRNet)는 전체 과정 동안 고해상도 표현을 유지합니다. 이 네트워크에는 두 가지 주요 특징이 있습니다: (i) 고해상도에서 저해상도로 변환하는 합성곱 스트림을 병렬로 연결합니다; (ii) 해상도 간 정보를 반복적으로 교환합니다. 이 방법의 장점은 결과적인 표현이 의미적으로 더 풍부하고 공간적으로 더 정확하다는 것입니다. 우리는 HRNet의 우수성을 인간 자세 추정, 의미 분할, 객체 검출 등 다양한 응용 분야에서 보여주며, 이는 HRNet이 컴퓨터 비전 문제에 대한 더 강력한 백본임을 시사합니다. 모든 코드는~{\url{https://github.com/HRNet}}에서 제공됩니다.

깊은 고해상도 표현 학습을 이용한 시각 인식 | 최신 연구 논문 | HyperAI초신경