깊은 신경망 증강: 감정 분석을 위한 얼굴 생성

본 논문은 얼굴 감정을 합성하기 위한 새로운 접근법을 제시합니다. 이 접근법은 여섯 가지 기본 표정(즉, 화남, 혐오, 두려움, 기쁨, 슬픔, 놀람) 또는 감정의 정서적 가치(valence)(즉, 감정이 긍정적이거나 부정적인 정도)와 활성화(arousal)(즉, 감정의 활성화 강도) 측면에서 합성을 수행합니다. 제안된 접근법은 다음과 같은 입력을 받아들입니다: i) 사람의 중립적인 2D 이미지; ii) 생성할 기본 얼굴 표정이나 정서적 가치-활성화(VA) 상태 설명자 쌍, 또는 2D VA 공간에서 생성될 영상 시퀀스로 표현되는 감정 경로. VA 측면에서 이 사람의 감정을 합성하기 위해 4DFAB 데이터베이스에서 $600,000$ 프레임이 주석 처리되었습니다. 감정 합성은 중립 이미지에 3D 변형 모델을 맞추고 재구성된 얼굴을 변형하며 입력된 감정을 추가한 후, 새로운 얼굴과 주어진 감정을 원래 이미지에 혼합하는 방식으로 구현됩니다. 질적 실험에서는 Aff-Wild, AffectNet, RAF-DB 등 열세 개의 잘 알려진 실험실 조건 하에서 촬영하거나 자연 환경에서 촬영한 데이터베이스에서 중립 이미지를 샘플링하여 실제적인 이미지를 생성하는 것을 보여줍니다. 생성 적대 신경망(GANs)과의 비교를 통해 제안된 접근법이 더 높은 품질을 달성함을 확인할 수 있습니다. 이후 양적 실험에서는 합성된 이미지를 사용하여 모든 데이터베이스에서 감정 인식을 수행하는 딥 뉴럴 네트워크를 훈련시키는 데이터 증강에 활용하였습니다. 실험 결과는 최신 방법들과 GAN 기반 데이터 증강과 비교했을 때 모든 경우에서 크게 개선된 성능을 보였습니다.