9일 전
약한 감독 하에 물리적으로 제약이 없는 시선 추정
Rakshit Kothari, Shalini De Mello, Umar Iqbal, Wonmin Byeon, Seonwook Park, Jan Kautz

초록
물리적으로 제약되지 않은 시선 추정의 주요 과제는 실제 환경 및 야외 장면에서 3차원 시선 레이블이 포함된 학습 데이터를 확보하는 것이다. 반면에 제약 없는 환경에서의 인간 상호작용 영상은 풍부하게 존재하며, 프레임 단위의 활동 레이블로 더 쉽게 애너테이션할 수 있다. 본 연구에서는 인간 상호작용 영상에서 약한 지도 신호를 활용한 시선 추정이라는 이전에 탐색되지 않은 문제에 도전한다. 우리는 '서로를 바라보는' 활동(Looking At Each Other, LAEO) 수행 시 강력한 시선 관련 기하학적 제약이 존재한다는 통찰을 활용한다. LAEO 레이블로부터 유효한 3차원 시선 지도 정보를 얻기 위해, 본 작업에 특화된 여러 새로운 손실 함수를 포함한 학습 알고리즘을 제안한다. 대규모 CMU-Panoptic 및 AVA-LAEO 활동 데이터셋에서 두 가지의 약한 지도 신호를 활용하여, (a) 반감독 시선 추정의 정확도 향상과 (b) 최신의 물리적 제약이 없는 실외 환경에서의 Gaze360 시선 추정 벤치마크에서의 도메인 간 일반화 능력 향상이 두드러진 결과를 보였다. 본 연구의 코드는 https://github.com/NVlabs/weakly-supervised-gaze 에서 오픈소스로 제공된다.