4D 스캔에서 얼굴 형태와 표정의 모델 학습

3D 얼굴 모델링 분야는 고성능 기술과 저성능 기술 사이에 큰 격차가 존재한다. 고성능 기술에서는 최고 수준의 얼굴 애니메이션은 실제 인간과 구분이 불가능할 정도로 정교하지만, 이는 방대한 수작업을 수반한다. 반면 저성능 기술에서는 소비자용 깊이 센서를 이용한 얼굴 캡처는 자연스러운 얼굴 형태와 표정의 다양성을 충분히 표현할 수 없는 3D 얼굴 모델에 의존한다. 우리는 수천 개의 정확하게 정렬된 3D 스캔 데이터로부터 얼굴 모델을 학습함으로써 이러한 중간 지점을 탐색한다. 본 연구에서 제안하는 FLAME 모델(Faces Learned with an Articulated Model and Expressions)은 기존 그래픽 소프트웨어와 호환되며 데이터에 쉽게 적합할 수 있도록 설계되었다. FLAME는 인간 머리 3,800개의 스캔 데이터를 기반으로 학습된 선형 형태 공간을 사용한다. 이 선형 형태 공간에 관절 구조를 갖춘 턱, 목, 안구, 자세에 따라 달라지는 보정 블렌드쉐이프( corrective blendshapes), 그리고 추가적인 전역적 표정 블렌드쉐이프를 결합하였다. 자세와 표정에 따라 변화하는 관절 구조는 D3DFACS 데이터셋의 4D 얼굴 시퀀스와 추가적인 4D 시퀀스 데이터로부터 학습되었다. 우리는 스캔 시퀀스에 템플릿 메시를 정확히 정렬하였으며, D3DFACS 데이터셋의 정렬 결과를 연구 목적을 위해 공개하였다. 총 33,000개 이상의 스캔 데이터를 기반으로 모델이 학습되었다. FLAME는 차원 수가 낮지만, FaceWarehouse 모델과 Basel Face Model보다 훨씬 더 표현력이 풍부하다. 동일한 최적화 방법을 사용하여 정적 3D 스캔과 4D 시퀀스에 각 모델을 적합시켜 FLAME를 비교 평가한 결과, FLAME는 훨씬 더 정확한 성능을 보였다. 본 모델은 연구 목적을 위해 공개되어 사용이 가능하다.