9일 전
엔드투엔드 비디오 가제 추정: 헤드-페이스-아이 공간-시계열 상호작용 컨텍스트 포착을 통한 접근
Yiran Guan, Zhuoguang Chen, Wenzheng Zeng, Zhiguo Cao, Yang Xiao

초록
이 논문에서는 아직 충분히 다루어지지 않은 머리, 얼굴, 눈 간의 공간-시계열 상호작용 맥락을 종단간 학습 방식으로 포착함으로써 영상 기반 시선 추정을 촉진하는 새로운 방법, 다중 단서 시선(Multi-Clue Gaze, MCGaze)을 제안한다. MCGaze의 주요 장점은 머리, 얼굴, 눈에 대한 단서 위치 추정 작업을 하나의 단계에서 통합적으로 해결하고, 공동 최적화를 통해 최적의 성능을 도출할 수 있다는 점이다. 이 과정에서 머리, 얼굴, 눈에 대한 단서 간에 공간-시계열 맥락 정보가 교환된다. 결과적으로 다양한 쿼리에서 추출한 특징을 융합하여 얻어진 최종 시선은 머리와 얼굴로부터의 전역적 단서뿐 아니라 눈으로부터의 국소적 단서를 동시에 인지할 수 있어 성능을 본질적으로 향상시킨다. 한편, 단일 단계 실행 방식은 높은 실행 효율성도 보장한다. 도전적인 Gaze360 데이터셋을 대상으로 수행한 실험을 통해 본 연구의 우수성을 검증하였으며, 소스 코드는 https://github.com/zgchen33/MCGaze 에 공개될 예정이다.