16일 전

야외 환경에서의 얼굴 파싱을 위한 RoI Tanh-극좌표 변환망

Yiming Lin, Jie Shen, Yujiang Wang, Maja Pantic
야외 환경에서의 얼굴 파싱을 위한 RoI Tanh-극좌표 변환망
초록

얼굴 파싱(Face parsing)은 이미지 내 타겟 얼굴의 각 픽셀에 대해 얼굴 구성 요소의 레이블을 예측하는 것을 목표로 한다. 기존의 접근 방식들은 사전 처리 과정에서 계산된 경계 박스(bounding box)를 기준으로 타겟 얼굴을 입력 이미지에서 자르는 방식을 사용하므로, 단지 얼굴의 내부 관심 영역(Region of Interest, RoI)만을 분석할 수 있다. 이로 인해 머리카락과 같은 주변 영역은 무시되며, 경계 박스에 부분적으로 포함된 근접한 얼굴들로 인해 분석에 방해가 될 수 있다. 더불어 이러한 방법들은 대부분 근접한 정면 포트레이트 이미지에서만 학습 및 평가되었으며, 실제 환경(인더와일드, in-the-wild)에서의 성능에 대해서는 탐색되지 않았다. 이러한 문제들을 해결하기 위해 본 논문은 세 가지 기여를 한다. 첫째, 자연 환경에서의 얼굴 파싱을 위한 iBugMask 데이터셋을 제안한다. 이 데이터셋은 학습용 21,866장의 이미지와 테스트용 1,000장의 이미지로 구성되며, 기존 데이터셋을 대규모 얼굴 자세(pose)로 증강하여 확보하였다. 테스트 이미지들은 11개의 얼굴 영역에 대해 수작업으로 레이블링되었으며, 크기, 자세, 표정, 배경 등에서 큰 다양성이 존재한다. 둘째, RoI Tanh-극좌표 변환(RoI Tanh-polar transform)을 제안한다. 이 변환은 타겟 경계 박스를 기반으로 하여 이미지 전체를 고정된 얼굴 영역과 컨텍스트 비율을 유지하는 Tanh-극좌표 표현으로 변환한다. 새로운 표현은 원본 이미지의 모든 정보를 포함하며, 합성곱 신경망(Convolutional Neural Networks, CNNs)에서 회전 불변성(rotation equivariance)을 가능하게 한다. 셋째, Tanh-극좌표 공간과 Tanh-데카르트 공간 양쪽 모두에 합성곱 계층을 포함하는 하이브리드 잔차 표현 학습 블록(HybridBlock)을 제안한다. 이를 통해 CNN 내에서 다양한 형태의 수용 영역(receptive fields)을 구현할 수 있다. 광범위한 실험을 통해 제안한 방법이 자연 환경에서의 얼굴 파싱 성능을 기존 최고 수준을 초월하며, 얼굴 랜드마크를 통한 정렬 없이도 효과적으로 작동함을 입증하였다.

야외 환경에서의 얼굴 파싱을 위한 RoI Tanh-극좌표 변환망 | 최신 연구 논문 | HyperAI초신경