초록
본 논문에서는 얼굴 분할(face parsing) 작업을 위한 딥러닝 네트워크 설계 방안을 제안하며, 뛰어난 정확도와 실시간 추론 속도를 동시에 달성하고자 한다. 일반적인 이미지 분할 작업과 얼굴 분할 작업 간의 차이점을 분석한 후, 기존의 전결합 네트워크(FCN) 구조를 재검토하고 얼굴 분할 작업의 고유한 특성에 적합하도록 개선한다. 특히, 네트워크 설계에 대한 보다 깊은 통찰을 제공하기 위해 '정규화된 수용장(Normalized Receptive Field)'의 개념을 도입한다. 이후, 훈련 중 특징의 정규화를 촉진하고 더 � rich한 맥락 정보를 통합하는 새로운 손실 함수인 '통계적 맥락 손실(Statistical Contextual Loss)'을 제안한다. 모델의 추가 가속을 위해, 학습된 지식을 보다 가벼운 네트워크로 효과적으로 전이할 수 있는 반교사(distillation) 기반의 반무 supervision 방식을 제안한다. LFW 및 Helen 데이터셋에서 수행한 광범위한 실험 결과는 제안한 설계 방안이 효율성과 효율성 측면에서 기존 방법 대비 뚜렷한 우수성을 입증한다.