야당 학습 기반 세밀한 볼륨을 통한 야생 환경에서의 2D/3D 얼굴 형태 회귀

회귀 기반 방법들은 깊은 신경망과 현실 세계의 막대한 애노테이션 데이터셋을 활용함으로써 2차원(2D) 랜드마크 위치 추정 분야에서 혁신을 가져왔다. 그러나 3차원(3D) 랜드마크 위치 추정은 애노테이션 데이터셋의 부족과 3D 시점에서 랜드마크의 모호성으로 인해 여전히 도전적인 과제로 남아 있다. 본 논문은 회귀 기반 방법을 다시 조명하고, 현실 세계 시나리오에서 2D 및 3D 얼굴 랜드마크 위치 추정을 위한 적대적 볼륨 및 좌표 회귀 프레임워크를 제안한다. 먼저, 각 볼륨 요소(voxel)가 3D 랜드마크 위치일 가능성을 인코딩하는 의미론적 볼륨 표현을 도입한다. 이후, 제안된 볼륨 표현과 좌표 벡터를 동시에 회귀하는 엔드투엔드 파이프라인을 설계한다. 이러한 파이프라인은 예측의 강건성과 정확성을 향상시키는 동시에, 2D와 3D 랜드마크 위치 추정을 통합하여 2D 및 3D 데이터셋을 동시에 활용할 수 있도록 한다. 또한, 약한 지도 학습 환경에서 합성 데이터셋에서 학습한 3D 구조를 실제 데이터셋으로 전이하기 위해 적대적 학습 전략을 활용한다. 이 과정에서 보조 회귀 판별기((auxiliary regression discriminator)를 제안하여, 합성 이미지와 실제 이미지 모두에 대해 타당한 예측을 생성하도록 네트워크를 유도한다. 제안한 방법의 효과성은 2D 및 3D 얼굴 랜드마크 위치 추정 작업 모두에 대해 기준 데이터셋인 3DFAW와 AFLW2000-3D에서 검증되었다. 실험 결과, 기존 최상의 방법들에 비해 제안된 방법이 상당한 성능 향상을 달성함을 입증하였다.