
초록
인간 파싱(human parsing)의 목적은 이미지 내 인간을 구성 요소로 분할하는 것이다. 이 작업은 인간 이미지의 각 픽셀을 클래스에 따라 레이블링하는 것을 포함한다. 인간 신체는 계층적인 구조를 가지므로, 이미지 내 각 신체 부위는 고유한 위치 분포 특성을 갖는다. 예를 들어, 머리는 발 아래에 있을 가능성은 낮고, 팔은 몸통 근처에 있을 가능성이 높다. 이러한 관찰에 영감을 받아, 우리는 수평 및 수직 방향으로 원본 인간 파싱 레이블을 누적하여 각 인스턴스 클래스의 분포를 생성한다. 이러한 분포는 감독 신호로 활용될 수 있다. 이 수평 및 수직 방향의 클래스 분포 레이블을 사용함으로써, 네트워크는 각 클래스의 내재된 위치 분포 특성을 효과적으로 탐색하도록 안내된다. 두 가지 안내 특징을 결합하여 공간 안내 맵(spatial guidance map)을 구성한 후, 이를 기본 네트워크에 곱셈과 연결(concatenation)을 통해 중첩함으로써 인간 부위를 정밀하게 구분한다. 제안한 방법의 효과성과 우수성을 입증하기 위해, LIP, ATR, CIHP 세 가지 유명한 벤치마크 데이터셋에서 광범위한 실험을 수행하였다.