
초록
사람의 시선은 시각적 주의에 대한 중요한 정보를 담고 있다는 것은 잘 알려져 있습니다. 그러나 딥 뉴럴 네트워크의 주의 메커니즘에 시선 데이터를 통합하는 데는 세 가지 주요 어려움이 있습니다: 1) 깜빡임과 빠른 눈 움직임으로 인해 시선 고정점에 측정 오류가 발생할 가능성이 높습니다; 2) 시선 데이터가 언제 그리고 어느 정도로 시각적 주의와 상관관계를 가지는지 명확하지 않습니다; 3) 많은 실제 상황에서 시선 데이터가 항상 이용 가능하지 않습니다. 본 연구에서는 제1인칭 활동 인식을 위한 공간-시간 주의 메커니즘에 인간의 시선을 효과적으로 통합하기 위한 확률론적 접근법을 소개합니다. 구체적으로, 우리는 시선 고정점의 위치를 구조화된 이산 잠재 변수로 표현하여 그 불확실성을 모델링합니다. 또한, 변분 방법을 사용하여 시선 고정점의 분포를 모델링합니다. 훈련 과정에서 시선 분포가 학습되므로, 테스트 상황에서는 더 이상 실제 시선 위치 주석이 필요하지 않으며, 학습된 시선 분포에서 예측됩니다. 예측된 시선 위치는 정보적인 주의 신호를 제공하여 인식 성능을 개선하는 데 사용됩니다. 우리의 방법은 EGTEA(제1인칭 활동 인식을 위해 제공되는 대규모 데이터셋으로, 시선 측정값이 포함되어 있음)에서 모든 기존 최신 접근법보다 우수한 성능을 보입니다. 또한, 우리는 압축 실험과 정성적 분석을 수행하여 우리의 주의 메커니즘이 효과적임을 입증하였습니다.