ExpNet: 랜드마크 없는, 깊은, 3D 얼굴 표현

우리는 3D 얼굴 표현 계수를 추정하기 위한 딥 러닝 기반 방법을 설명합니다. 이전 연구와 달리, 우리의 프로세스는 얼굴 랜드마크 검출 방법을 중간 단계로 사용하지 않습니다. 최근의 연구에서는 CNN이 이미지 강도로부터 직접 정확하고 구별력 있는 3D 변형 가능한 모델 (3DMM) 표현을 회귀할 수 있음을 보여주었습니다. 얼굴 랜드마크 검출을 생략함으로써 이러한 방법들은 전례 없는 야외 환경에서 가려진 얼굴들의 형태를 추정하는 것이 가능해졌습니다. 우리는 이러한 방법들을 바탕으로, 안정적이고 깊으며 랜드마크가 필요 없는 접근 방식으로 얼굴 표현도 추정할 수 있음을 보여줍니다. 우리의 ExpNet CNN은 얼굴 이미지의 강도에 직접 적용되어 29차원의 3D 표현 계수 벡터를 회귀합니다.우리는 이 네트워크를 훈련시키기 위해 데이터를 수집하는 독특한 방법을 제안합니다. 이 방법은 딥 네트워크의 훈련 라벨 노이즈에 대한 견고성을 활용합니다. 또한, 추정된 표현 계수의 정확성을 평가하는 새로운 방식을 제공합니다: CK+ 및 EmotiW-17 감정 인식 벤치마크에서 얼마나 잘 얼굴 감정을 포착하는지를 측정하여 평가합니다. 우리는 ExpNet이 최신의 얼굴 랜드마크 검출 기술보다 더 잘 구별되는 3D 얼굴 표현 계수를 생성함을 보여줍니다. 더욱이, 이미지 크기가 줄어들수록 이 장점이 커지는 것으로 나타나, ExpNet이 랜드마크 검출 방법보다 스케일 변화에 대해 더 견고하다는 것을 입증합니다. 마지막으로, 같은 수준의 정확성에서 ExpNet은 대안적인 방법들보다 몇 배나 더 빠릅니다.