2달 전
고해상도 표현을 이용한 픽셀 및 영역 라벨링
Ke Sun; Yang Zhao; Borui Jiang; Tianheng Cheng; Bin Xiao; Dong Liu; Yadong Mu; Xinggang Wang; Wenyu Liu; Jingdong Wang

초록
고해상도 표현 학습은 자세 추정과 의미 분할 등 많은 시각 문제에서 중요한 역할을 합니다. 최근 인간 자세 추정을 위해 개발된 고해상도 네트워크(HRNet)~\cite{SunXLW19}는 고해상도와 저해상도 합성곱을 병렬로 연결하여 전체 과정에서 고해상도 표현을 유지하며, 병렬 합성곱 간의 반복적인 융합을 통해 강력한 고해상도 표현을 생성합니다.본 논문에서는 고해상도 표현에 대한 추가 연구를 수행하고, 간단하면서 효과적인 수정을 도입하여 다양한 시각 작업에 적용합니다. 우리는~\cite{SunXLW19}에서 수행한 것처럼 고해상도 합성곱에서만 표현을 취하는 대신, 모든 병렬 합성곱에서 얻은 (업샘플링된) 표현들을 집계하여 고해상도 표현을 강화합니다. 이 간단한 수정은 우수한 결과를 통해 더 강력한 표현으로 이어집니다. 우리는 Cityscapes, LIP, 그리고 PASCAL Context 데이터셋에서 의미 분할과 AFLW, COFW, 300W, 그리고 WFLW 데이터셋에서 얼굴 랜드마크 검출에서 최고의 결과를 보여줍니다. 또한, 고해상도 표현으로부터 다중 수준의 표현을 구축하여 Faster R-CNN 객체 검출 프레임워크와 확장된 프레임워크에 적용합니다. 제안된 접근법은 COCO 객체 검출에서 기존 단일 모델 네트워크들보다 우수한 결과를 달성하였습니다. 코드와 모델들은 \url{https://github.com/HRNet}에서 공개적으로 이용 가능합니다.