한 개의 눈만으로도 충분하다: 단일 인코더를 활용한 눈동자 추정을 위한 경량 앙상블

최근 몇 년간 시선 추정(gaze estimation)의 정확도는 급속도로 향상되어 왔다. 그러나 이러한 모델들은 일반적으로 다른 컴퓨터 비전(CV) 문제에서 성능 향상을 입증한 다양한 CV 알고리즘 및 기법(예: 소형 ResNet 및 Inception 네트워크, 앙상블 모델 등)을 효과적으로 활용하지 못하는 경향이 있다. 또한, 현재 대부분의 시선 추정 모델은 양쪽 눈 또는 전체 얼굴을 입력으로 요구하지만, 실세계 데이터에서는 항상 양쪽 눈이 고해상도로 제공되지 않을 수 있다. 이를 해결하기 위해 우리는 단일 눈 이미지만을 입력으로 사용하여 예측을 수행하는 ResNet 및 Inception 아키텍처를 구현한 시선 추정 모델을 제안한다. 더불어, 개별 아키텍처들의 예측 결과를 활용하여 개인별 맞춤형 예측을 수행하는 앙상블 캘리브레이션 네트워크를 제안한다. 경량 아키텍처를 사용함으로써, GazeCapture 데이터셋에서 매우 낮은 모델 파라미터 수로 높은 성능을 달성하였다. 두 눈을 입력으로 사용할 경우, 캘리브레이션 없이 테스트 세트에서 평균 예측 오차가 1.591cm이며, 앙상블 캘리브레이션 모델을 사용하면 1.439cm까지 개선된다. 한쪽 눈만을 입력으로 사용할 경우에도 캘리브레이션 없이 평균 예측 오차가 2.312cm이며, 앙상블 캘리브레이션 모델을 적용하면 1.951cm까지 감소한다. 또한, 테스트 세트에서 오른쪽 눈 이미지에 대해 특히 낮은 오차를 관찰하였으며, 이는 향후 시선 추정 기반 도구 설계 시 중요한 고려사항이 될 수 있다.