18일 전

대규모 자세를 가지는 얼굴 정렬을 위한 국소적 증거의 컨볼루션 통합

{Georgios Tzimiropoulos, Adrian Bulat}
대규모 자세를 가지는 얼굴 정렬을 위한 국소적 증거의 컨볼루션 통합
초록

제약 없는 얼굴 정렬을 위한 기법은 두 가지 조건을 충족해야 한다. 첫째, 정확한 초기화 또는 얼굴 탐지에 의존해서는 안 되며, 둘째, 얼굴 자세의 전 범위에서 동일한 성능을 보여야 한다. 저희가 알고 있는 바에 따르면, 이러한 조건을 만족하는 기법은 존재하지 않으며, 본 논문에서는 이러한 두 가지 문제를 동시에 해결하기 위해 특별히 설계된 컨볼루셔널 신경망(CNN) 아키텍처인 '지역 증거의 컨볼루셔널 집계(Convolutional Aggregation of Local Evidence, CALE)'를 제안한다. 특히, 정확한 얼굴 탐지에 대한 의존성을 제거하기 위해, 본 시스템은 먼저 얼굴 부위를 탐지하여 각 얼굴 랜드마크의 위치에 대한 신뢰도 점수(지역 증거)를 제공한다. 이후, 이러한 점수 맵과 조기 CNN 특징들을 함께 활용하여 공동 회귀(joint regression)를 통해 랜드마크의 위치를 보정한다. CNN 회귀는 단순한 그래픽 모델의 역할을 넘어서, 특히 매우 큰 자세에서 자주 발생하는 랜드마크의 가려짐 상황에서 맥락 정보에 기반한 예측을 유도하는 핵심 기능을 수행한다. 전체 시스템은 중간 단계의 감독을 포함한 엔드투엔드(end-to-end) 방식으로 훈련된다. 최근 발표된 대형 자세 얼굴 정렬 기법들과 비교했을 때, 현재까지 가장 도전적인 인간 얼굴 정렬 테스트 세트인 AFLW-PIFA에 적용했을 때, 본 방법은 정렬 정확도에서 50% 이상의 성능 향상을 보였다. 인간 얼굴을 넘어서, 본 연구는 CALE가 동물 얼굴에서 자주 나타나는 형태와 외형의 극심한 변화에도 효과적으로 대응할 수 있음을 실험적으로 입증하였다.