
3D 얼굴 형태는 2D 대응물보다 더 표현력이 뛰어나고 시점 일관성이 우수합니다. 그러나 단일 이미지에서 3D 얼굴 특징점 위치를 결정하는 것은 3D 관점 하에서 특징점의 모호한 성질 때문에 어려운 문제입니다. 기존 접근 방식은 일반적으로 최적화되지 않은 두 단계 전략을 채택하여, 먼저 2D 특징점 위치를 결정하고 그 다음에 깊이를 추정합니다. 본 논문에서는 이러한 문제를 보다 효과적으로 단일 과정으로 해결하기 위해 Joint Voxel and Coordinate Regression (JVCR) 방법을 제안합니다.우선, 3D 특징점이 될 가능성을 부피 내 각 복셀(voxel)마다 인코딩하는 축소된 부피 표현(compact volumetric representation)을 제안합니다. 이 표현의 차원은 목표로 하는 특징점의 수와 무관하게 고정되어 있으므로, 차원의 저주(curse of dimensionality)를 피할 수 있습니다. 그런 다음, 거친 단계에서 세밀한 단계까지 부피 표현을 추정하는 스택드 아워글래스 네트워크(stacked hourglass network)를 사용하고, 이를 입력으로 받아 얼굴 형태의 3D 좌표를 회귀(regress)하는 3D 컨벌루션 네트워크(3D convolution network)가 따릅니다. 이렇게 함으로써 신경망은 특징점 간의 3D 구조적 제약 조건을 보다 효율적으로 학습할 수 있습니다.또한, 제안된 파이프라인은 단일 과정으로 훈련(end-to-end training)을 가능하게 하며, 3D 얼굴 특징점 위치 결정의 견고성과 정확도를 향상시킵니다. 우리의 접근 방식의 유효성은 3DFAW 및 AFLW2000-3D 데이터셋에서 검증되었습니다. 실험 결과는 제안된 방법이 기존 방법들과 비교하여 최신 수준(state-of-the-art performance)의 성능을 달성함을 보여줍니다.