
얼굴 재구성 및 추적은 증강현실/가상현실(AR/VR), 인간-기계 상호작용, 의료 응용 등 다양한 분야의 핵심 기반 기술이다. 이러한 응용 대부분은 특히 재구성된 개체가 메트릭적 맥락(즉, 크기가 알려진 기준 객체가 존재하는 경우)에 놓일 때, 형상에 대한 정확한 메트릭 예측에 의존한다. 또한, 사용자의 거리나 치수를 측정하는 모든 응용(예: 가상으로 안경 프레임을 맞추는 경우)에도 메트릭적 재구성이 필요하다. 현재 가장 최신의 단일 이미지에서 얼굴 재구성 기법은 대규모 2D 이미지 데이터셋을 사용해 자기지도 학습(self-supervised) 방식으로 훈련된다. 그러나 투영 원리의 특성상 실제 얼굴의 크기를 재구성할 수 없으며, 일부 기법은 평균 인간 얼굴 크기를 예측하는 것조차 뛰어넘는 성능을 보이기도 한다. 실제 얼굴 형상을 학습하기 위해서는 감독 학습 방식이 필요하다고 주장한다. 그러나 이 작업을 위한 대규모 3D 데이터셋이 존재하지 않기 때문에, 우리는 소규모 및 중규모 데이터베이스를 수작업으로 주석 처리하고 통합하였다. 결과적으로 얻어진 통합 데이터셋은 여전히 중규모이며, 2,000개 이상의 개체를 포함하고 있다. 이 데이터셋만으로 훈련할 경우 과적합(overfitting)이 발생할 수 있다. 이를 해결하기 위해, 대규모 2D 이미지 데이터셋에서 사전 훈련된 얼굴 인식 네트워크를 활용한다. 이 네트워크는 다양한 얼굴에 대해 구분 가능한 특징을 제공하며, 표정, 조명, 카메라 각도 변화에 대해 강건하다. 이러한 특징을 활용하여 감독 학습 방식으로 얼굴 형상 추정기를 훈련함으로써, 얼굴 인식 네트워크의 강건성과 일반화 능력을 그대로 이어받는다. 본 연구에서 제안하는 방법, 즉 MICA(MetrIC fAce)는 기존 최고 수준의 재구성 방법에 비해 현저한 성능 향상을 보이며, 현재의 비메트릭 기준 평가 벤치마크뿐만 아니라 본 연구에서 제안한 메트릭 기준 벤치마크에서도 우수한 성능을 나타냈다. 각각 NoW 데이터셋에서 평균 오차가 15%, 24% 감소한 결과를 기록하였다.